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蔡 善 清 (Shanqing Cai ) 


谷歌 公司 软件 工程 师 ， 深 度 参 与 了 TensorFlow 和 
TensorFlow.js 的 开发 工作 。 从 清华 大 学 毕业 后 ， 
他 前 往 约 翰 斯 * 霍 普 金 斯 大 学 和 麻 省 理工 学 院 深 
造 ， 并 取得 了 麻 省 理工 学 院 博 士 学 位 。 


斯 坦 利 . 比 列 斯 奇 ( Stanley Bileschi) 


谷歌 公司 TensorFlow 可 用 性 团队 技术 负责 人 ， 领 
导 团 队 构建 了 TensorFlow.js 高 阶 API。 


埃 里 克 . D. 尼尔森 (Eric D. Nielsen ) 


谷歌 公司 软件 工程 师 ， 深 度 参 与 了 TensorFlow.js 的 
开发 工作 


弗 朗 索 瓦 * 肖 莱 (Francois Chollet) 


Keras 之 父 ，TensorFlow 机 器 学 习 框 架 贡 献 者 ， 
Kaggle 竞赛 教练 ， 目 前 任职 于 谷歌 公司 ， 从 事 人 工 
智能 研究 ， 另 著 有 《Python 深度 学 习 》。 





程 泽 


软件 工程 师 ， 先 后 任职 于 AMD、IBM、ThoughtWorks 
等 企业 ， 对 机 器 学 习 在 设备 端的 医 勃 友 展 充满 期 待 。 
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内 容 提 要 

本 书 教 你 使 用 TensorFlow.js 构建 强大 的 JavaScript 深度 学 习 应 用 程序 。 本 书 作 者 均 是 谷歌 大 脑 团 队 的 
资深 工程 师 ， 也 是 TensorFlowjjs 的 核心 开发 人 员 。 你 将 了 解 JavaScript 与 深度 学 习 结 合 的 独特 优势 ， 掌 握 
客户 端 预 测 与 分 析 、 图 像 识 别 、 监 督 和 学习、 迁移 学 习 、 强 化 学 习 等 核心 概念 ， 并 动手 在 浏览 锅 中 实现 计算 
机 视觉 和 音频 处 理 以 及 上 自然 语言 处 理 ， 构 建 并 训练 神经 网 络 ， 利 用 客户 端 数 据 优 化 机 需 学 习 模 型 ， 开 发 基 
于 浏览 需 的 交互 式 游 戏 ， 同 时 为 次 度 学 习 探 索 新 的 应 用 空间 。 你 还 可 以 获得 次 度 学 习 模 型 构建 过 程 中 不 同 
问题 所 涉及 的 策略 和 相关 限制 的 实用 知识 , 同时 了 解 训 练 和 部 署 这 些 模 型 的 具体 步骤 以 及 重要 的 注意 事项 。 

本 书 适合 对 深度 学 习 感 兴趣 的 Web 前 端 开 发 人 员 和 基于 Node.js 的 开发 人 员 阅 读 。 
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可 视 化 训练 过 程 
浏览 妖 ; 7.1.1 而 
NodeJjs: 信息 栏 9-1 






应 对 欠 拟 合 和 过 拟 合 
8.2 节 


表 8-] 










可 视 化 和 理解 训练 好 的 模型 
7.2- 


一 一 
保存 、 加 载 和 转换 模型 
用 JavaScript 保 存 模型 4.32 节 
全 Kens 村 所 vaSerip4 林 使用 的 


模型 部 署 前 的 准备 工作 


权重 量化 : 缩小 模型 体积 
1 2 工作 











测试 模型 及 其 外 围 代码 
1 之 了 和 





用 Grappler 加 速 模型 的 推断 
17 D200 


一 一 


将 模型 部 署 到 生产 环境 


浏览 器 4.3.2 节 等 桌面 端 (Electronjjs) 
+ 


pe 应 用 程序 插件 平台 
Be 0 (例如 微 信 小 程序 ) 


云 服 务 12.3.2 节 
移动 端 (React Native) | 12.3.4 节 





处 理 数据 


歼 取 数据 
6 62 63 有 






增强 数据 


> 
清洗 数据 
数据 6.4 节 





输入 数据 类 型 推荐 的 API 层 


数值 数据 密集 层 





图 像 数 据 或 可 表示 为 图 像 的 数据 二 维 卷 积 层 和 二 维 池 化 层 
(例如 音频 、 游 戏 界 面 ) 


序列 数据 ， 包 括 文本 数据 “RNN (LSTM、GRU) 层 
. 嵌入 层 
* 一 维 卷 积 层 
. 注意 力 层 





模型 构建 第 2 步 : 选择 最 末 层 的 激活 水 数 和 度量 指标 湄 


任务 类 型 最 末 导 的 

回归 线性 meanSquaredError (和 损失 相同 ) 

(预测 一 个 实数 ) meanAbsoluteError 

二 分 类 Sigmolid 国 数 | binaryCrossentropy 准确 率 、 精 确 率 、 召 

(进行 二 元 决策 ) 回 率 、 敏 感度 、TPR、 
FPR、ROC、AUC 

多 分 类 两 化 指数 | categoricalCrossentropy | 准确 率 、 混 清和 矩阵 

(进行 多 元 决策 ) 函数 


上 而 儿 种 任务 的 结合 (多 种 ) | 自 定义 损 类 函数 

(例如 同时 预测 数值 和 类 别 ) 
高 级 和 其 他 任务 类 型 
迁移 学 习 第 5 音 
(用 预 训练 模型 对 新 数据 做 预测 ) 


生成 式 学 习 第 10 音 
(基于 训练 数据 生成 新 样 例 ) 
强化 学 第 11 童 
( 训 [ 乡 和 
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最 近 的 一 场 主导 阿里 巴巴 前 端 委员 会 智能 化 方 同 ， 关于 “前 并 工 程 师 能 否 做 深度 学 习 ” 的 讨 
论 中 ， 一 个 争议 是 “数学 等 学 术 理 论 是 否 会 成 为 前 端 工 程 师 做 深度 学 习 的 门槛 ”。 一 方面 ， 有 人 
认为 深 展 学 习 的 门槛 太 高 。 从 这 个 角度 看 , 数学、 概率 论 生理 论 知 识 似乎 成 为 前 端 工程 师 做 深 虑 
学 习 的 拦路 虎 。 但 为 一 方面 也 有 人 认为 ， 应 用 次 度 学 习 不 是 设计 算法 模型 ， 并 不 需要 深 厚 的 学 术 
理论 功底 。 李开复 先生 是 后 一 个 观点 的 支持 者 , 他 曾 在 2020 年 世界 人 工 智能 大 会 (WAIC ) 上 说 ， 
骨 过 五 年 ，AI 将 无 处 不 在 ， 应 用 越 来 越 何 单 ， 一 般 的 传统 企业 也 可 以 屡 用 AI 工程师 ,创造 出 更 
接地 气 的 应 用 程序 。 那 么 ,综合 来 看 , “前 端 工程师 能 否 做 深度 学 习 ” 的 问题 就 在 于 ， 究 苋 是 目 
己 设 计 人 工 智能 的 算法 模型 ， 还 是 应 用 好 成 熟 的 算法 模型 ? 

我 目 己 的 观点 是 , 前 冰 工 程 师 应 该 移 看 眼 于 应 用 好 成 熟 的 算法 模型 。 虽 然 我 术 认 族 度 学 习 和 
任何 新 技术 一 样 有 和 学习 和 应 用 的 门槛 , 但 我 仍然 认为 前 端 工程 师 能 够 跨越 这 个 门槛 ,应 用 好 深度 
学 习 成 熟 的 算法 模型 ， 解 决 技术 、 工 程 乃 至 业务 问题 。 例 如 ，imgcook 网 站 由 设计 稿 智能 生成 代 
但 ， 文 撑 阿 里 巴巴 的 “ 双 十 一 ”等 大 促 活 动 去 研发 投入 。 虽 然 有 人 可 能 会 反对 ， 认 为 这 些 工 作 应 
该 由 算法 工程 师 负责 ， 但 我 的 回答 是 ，React Native 不 也 在 帮助 前 端 工程 师 掌 握 客 户 端 技术 扩展 
跨 问 技术 能 力 吗 ”这 个 问题 之 所 以 重要 , 是 因为 智能 化 时 代 之 下 ,深度 学 习 和 人 工 镶 能 将 成 为 前 
问 工 程 师 的 必 备 技能 ， 就 像 React Native 等 跨 闪 技术 一 样 。 

作为 TensorFlow.js 的 合作 伙伴 , 在 谷歌 山 景 城 之 行 和 tfijs 团队 来 访 杭州 后 , 我 们 进行 了 长 期 
深入 的 合作 ， 我 市 领 团队 和 tfjs 团队 共同 维护 了 从 js 的 Nodejs 版 本 部 分 功能 。 很 蜗 兴 看 到 
《JavaScript 深度 学 习 》 由 tjs 团队 携手 人 民 邮 电 出 版 社 图 录 公 司 推 出 中 文 版 。 本 书 泗 兽 了 深度 学 
习 领 域 几乎 所 有 成 熟 的 人 工 贸 能 算法 模型 ， 并 依据 核心 概念 理解 、 算 法 模型 实际 应 用 ,对 机 带 视 
党 (识别 能 力 )、 首 视频 (识别 能 力 入 目 然 语言 处 理 〈 理 解 能 力 )、 强 化 学 习 (决策 能 力 ) 等 领 
域 ,， 用 实践 和 案例 帮助 前 端 工程 师 学 习 和 理解 以 下 内 容 : 数据 收集 、 数 据 处 理 、 样 本 标注 、 可 视 
化 和 数据 评 佑 、 模 型 选择 、 模 型 配置 、 模 型 训练 、 模 型 评 佑 ， 以 及 将 模型 部 普 到 不 同 的 平台 和 环 
境 。 上 述 知 识 点 涵盖 了 应 用 座 度 学 习 算 法 模型 的 整个 技术 体系 。 这 本 书 不 仅 给 我 而 来 了 众多 族 度 
学 习 应 用 的 灵感 和 启发 , 还 加 深 了 我 对 深度 学 习 的 理解 。 我 推荐 前 端 工程 师 将 本 书 作 为 入 门 前 端 
智能 化 、 应 用 好 次 度 学 习 和 人 工 智 能 技术 的 参考 该 物 ， 并 按照 书 中 的 委 例 举一反三 ,用 深度 学 习 
的 各 种 成 熟 算 法 模型 能 力 ， 在 前 端 技术 、 工 程 、 业 务 等 领域 创造 全 新 的 价值 。 






















































































标 子 ( 标 铸 鳗 ) 
阿里 巴巴 前 端 委员 会 智能 化 方向 负责 人 
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在 我 们 启动 TensorFlow.js 项 目 之 初 , 它 还 叫 作 deeplearn.js, 那 时 机 硕 尝 习 领 域 绝 大 部 分 项 目 
采用 的 是 Python 语言 。 作 为 谷歌 大 脑 团队 中 的 JavaScript 开 发 者 和 机 禹 学 习 领 域 的 实践 者 ,我 们 
很 快意 识 到 ， 如 果 将 这 两 个 领域 结合 起 来 ， 必 将 大 有 可 为 。 如 今 ， 随 着 TensorFlow.js 在 构建 和 部 
署 机 需 学 习 模型 中 的 应 用 ， 众 多 来 目 广 大 JavaScript 社 区 的 开发 者 体验 到 了 它 的 优势 ， 同 时 它 也 
让 很 多 新 型 的 终端 侧 ( on-device ) 计算 成 为 可 能 。 

没有 善 清 、 斯 坦 利和 埃 里 克 的 努力 ， 就 不 会 有 TensorFlow.js 今天 的 盛况 。 他 们 对 Python 版 
TensorFlow 的 贡献 极 大 ， 包 括 TensorFlow 调试 希 、 即 时 执行 模式 ( eager execution ) 以 及 用 于 构 
建 与 测试 的 基础 设施 ,这些 赋予 了 他 们 将 Python 和 JavaScript 两 个 领域 相 结 合 的 独特 契机 。 在 开 
发 初期 ,他 们 就 意识 到 必须 建立 一 个 库 , 这 个 库 要 基于 deeplearn.js， 并 且 能 够 提供 高 阶 组 件 来 开 
发 机 需 学 习 模 型 。 出 于 这 种 考虑 ， 状 清 、 斯 坦 利 、 埃 里 克 以 及 其 他 一 些 同 事 一 同 构建 了 
TensorFlow.js Layers。 这 实现 了 从 Keras 模型 到 JavaScript 的 转换 ， 并 极 大 地 太 宣 了 TensorFlow.js 
生态 中 可 用 的 模型 。 在 TensorFlowjs Layers 准备 就 绪 的 那 一 刻 , 我 们 向 全 志 界 推出 了 TensorFlowjs。 

为 了 弄 清 软件 开发 者 的 动机 、 困 惑 与 诉求 ，Carrie Cai 和 Philip Guo 在 TensorFlow.js 官网 上 
发 起 了 一 项 调查 ， 这 本 书 是 对 这 项 调查 结论 的 直接 说 明 :“ 通 过 分 析 发 现 ， 开 发 者 对 机 天 学 习 框 
架 的 诉求 不 只 是 获得 API 使 用 方面 的 帮助 , 他 们 的 诉求 更 为 根本 , 即 在 理解 和 应 用 机 顺 学 习 硼 后 
的 核心 概念 方面 获得 指导 。 

这 本 书 融 合 了 深度 学 习 理 论 和 用 JavaScript 编写 的 TensorFlow.js 现实 条 例 。 对 于 没有 机 需 学 
习 经 验 或 专业 数学 背景 的 JavaScript 开发 者 ， 以 及 想 将 目 己 的 工作 成 果 延 伸 到 JavaScript 生态 的 
机 带 尝 习 从 业者 ， 这 本 书 都 是 宝 贯 的 学 习 换 源 。 弗 关 索 所 肖 羔 至 有 “Keras 之 父 ” 的 美誉 ， 巾 
他 所 车 的 《Python 深度 学 习 》" 是 应 用 机 器 学 习 领 域 最 热门 的 文献 之 一 。 这 本 书 在 该 书 的 基础 上 
加 以 扩充 ， 非常 好 地 诠释 了 JavaScript 所 拥有 的 独特 优势 : 互动 性 、 可 移植 性 ， 以 及 终端 侧 可 计 
算 性 。 它 洱 盖 了 机 硕 学 习 的 核心 概念 ， 并 且 涉 及 当今 最 前 党 的 机 融 学 习 话 题 ， 比 如 文本 翻译 、 生 
成 式 模 型 、 强 化 学 习 ， 甚 至 对 如 何在 现实 应 用 程序 中 部 署 机 需 学 习 模 型 提供 了 切实 可 行 的 建议 ， 
这 些 建议 都 来 自 拥 有 丰富 机 顺 学 习 实 际 部 署 经 验 的 从 业者 。 书 中 的 例子 都 有 可 互动 的 演示 程序 ， 
这 恰恰 展现 了 JavaScript 生态 的 独特 优势 。 书 中 所 有 代码 都 是 开源 的 ， 你 可 以 与 之 互动 ， 并 通过 
GitHub 平台 复制 源 代 码 。 



























































GD 此 书 已 由 人 民 邮 电 出 版 社 出 版 ， 详 见 ituring.cn/book/2599。 一 一 编者 注 


viii 厅 





这 本 书 使 用 JavaScript 作为 主要 语言 ， 可 以 看 作 JavaScript 机 需 学 习 领 域 的 必 读 之 作 。 刁 处 
机 融 尝 习 和 JavaScript 的 前 沿 ， 我 们 希望 这 本 书 所 介绍 的 概念 能 为 你 所 用 ， 并 祝 你 有 个 人 硕果 累累 
上 且 令 人 兴奋 的 旅程 。 





Nikhil Thorat 和 Daniel Smilkov 
deeplearn.js 发 明 者 和 TensorFlow.js 技 术 负 责 人 





ll 


且 


神经 网 络 目 2012 年 以 来 呈现 爆发 式 增 长 的 趋势 ， 这 或 许 是 近年 来 技术 发 展 史 上 最 重大 的 事 
件 之 一 。 时 值 含 标签 数据 集 数 量 增 长 、 计 算 机 能 力 提 升 以 及 算法 音 新 ,它们 相互 增益 ， 共 同 达 到 
了 一 个 质变 的 临界 点 。 目 此 之 后 , 深度 神经 网 络 将 一 些 从 前 不 可 企及 的 任务 变 为 可 能 ， 并 促进 了 
为 外 一 些 任务 准确 率 的 提升 , 将 它们 从 学 术 研 究 的 范畴 推 问 了 语音 识别 、 图 像 标记 、 生 成 式 模型 、 
推 存 系统 等 领域 的 实际 应 用 ， 而 这 还 只 是 冰山 一 角 。 

正 是 基于 这 一 背景 ,我 们 在 谷歌 大 脑 的 团队 帮手 开发 TensorFlow.js。 在 项 目 之 初 , 很 多 人 还 
得 “用 JavaScript 进行 深度 学 习 ” 只 是 一 个 新 奇 的 想法 ， 一 个 用 来 吸引 眼球 的 小 工具 ， 对 于 茶 
应 用 场景 还 算 有 趣 ， 但 并 不 值得 进行 严肃 的 研究 。 当 时 Python 已 有 好 几 个 完善 且 功 能 强大 的 
深度 学 习 框 架 ， 而 JavaScript 相应 的 机 需 和 学习 还 处 于 分 裂 且 不 完善 的 状态 。JavaScript 中 的 深度 学 
习 库 屈指 可 数 ， 而 且 绝 大 部 分 仅 文 持 部 署 由 其 他 语言 (一 般 是 Python ) 预 训 练 的 模型 。 另 外 ， 对 
仅 有 的 几 个 文 持 从 零 开 始 构建 和 训练 模型 的 库 而 言 ， 其 所 文 持 的 模型 类 型 范围 有 限 。 考 虑 到 
JavaScript 的 流行 程度 和 杭 路 客户 端 、 服 务 融 问 的 普及 度 ， 这 是 一 个 非常 奇怪 的 处 境 。 

TensorFlow.js 是 第 一 个 成 熟 的 工业 级 JavaScript 神经 网 络 软件 库 。 它 提供 的 功能 包含 多 个 维 
度 : 第 一 , 文 持 种 类 繁多 的 神经 网 络 层 , 适用 于 从 数字 到 文本 、 从 音频 到 网 像 等 不 同 的 数据 类 型 ; 
第 二 ， 提 供用 于 加 载 预 训 练 模型 的 API， 从 而 进行 推 新 ， 微 调 预 训练 模型 ， 以 及 从 去 构建 并 训练 
模型 ; 第 三 ， 为 那些 选择 使 用 成 熟 层 类 型 的 从 业者 提供 类 Keras 的 高 阶 API， 为 那些 希望 实现 较 
新 算法 的 从 业者 提供 类 TensorFlow 的 底层 API; 第 四 ， 适用 于 多 种 环境 及 便 件 类 型 ， 包 括 Web 
浏览 器 端 、 服 务 器 端 (Nodejs )、 移 动 端 (比如 React Native 和 微 信 小 程序 ) 以 及 桌面 端 ( Electron )。 
除了 多 维度 的 功能 ， 对 于 集成 到 更 大 的 TensorFlow/Keras 生态 ，TensorFlow.js 是 这 个 过 程 的 关键 
组 成 部 分 。 有 具体 来 说 , 它 的 API 和 TensorFlow/Keras 生态 是 一 致 的 , 并且 和 该 生态 下 产生 的 模型 
格式 是 双 癌 兼容 的 。 

本 书 将 引领 你 探索 TensorFlow.js 的 多 维度 功能 。 书 中 的 学 习 路 径 将 横 穿 第 一 维度 ( 任务 建 
檬 )， 然 后 在 回春 其 他 维度 进发 的 过 程 中 不 断 丰 军 。 首 移 从 用 数字 预测 数字 〈 回归 ) 这 样 相对 简 
单 的 任务 开始 , 然后 介绍 用 图 像 和 序列 预测 分 类 这 些 相对 复杂 的 任务 ,最 后 利用 神经 网 络 生成 新 
图 像 并 训练 智能 体 来 做 决定 ( 强化 学 习 )， 在 这 些 精彩 的 话题 中 结束 我 们 的 旅程 。 

本 书 的 创作 初衷 不 仅 是 介绍 用 TensorFlow.js 写 代 码 的 技巧 ， 更 是 为 了 让 它 成 为 一 | 门 导论 这 
程 ， 即 用 JavaScript 和 Web 开发 者 的 原生 语言 进行 机 带 学 习 。 深 度 学 习 是 一 个 正在 快速 发 展 的 领 
域 ， 我 们 相信 ， 即 使 你 没有 次 厚 的 数学 功底 ,也 能 够 很 好 地 理解 机 天 学 习 ， 从 而 在 今后 的 技术 单 
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新 中 与 时 俱 进 。 
JavaScript 机 带 学 习 社 区 正在 逐渐 壮大 ， 阅 旋 本 书 是 你 为 了 成 为 其 中 一 员 所 迈 出 的 第 一 步 。 
社区 里 提供 了 众多 专业 的 应 用 程序 ， 和 窗 盖 JavaScript 和 深度 学 习 的 交叉 领域 。 我 们 衷心 希望 本 书 
会 激发 你 在 这 一 领域 的 创造 力 ， 让 你 充分 发 挥 自己 的 优势 。 











蒙 善 清 、 斯 坦 利 ， 比 列 斯 奇 、 埃 里 克 ，D. 尼尔森 
2019 年 9 月 
于 美国 马萨诸塞 州 剑桥 市 


天 于 本 书 


运用 人群 


本 书面 回 对 JavaScript 有 一 定 应 用 能 力 并 和 希望 涉足 深度 学 习 的 程序 员 , 包括 Web 前 并 开发 人 
员 和 基于 Node.js 的 后 端 开 发 人 员 。 本 书 旨 在 满足 以 下 两 个 该 者 群体 的 学 习 需 求 。 

D JavaScript 程序 员 : 他 们 对 机 各 学 习 或 相关 数学 原理 几乎 没有 应 用 经 验 ， 但 淘 望 对 深度 学 

习 的 工作 原理 有 一 定 的 了 解 ， 并 且 对 相关 的 工作 流程 有 足够 的 认 知 ， 从 而 能 够 解决 分 类 
和 回归 年 常见 的 数据 科学 问题 。 

口 Web 开发 人 员 及 Node.jjs 开发 人 员 : 他 们 需要 将 预 训练 的 模型 作为 新 功能 部 署 到 Web 应 用 

程序 或 后 端 技 术 栈 中 。 

对 于 第 一 类 读者 , 本 书 以 循序 渐进 的 方式 从 去 开始 讲解 机 需 学 习 和 深度 学 习 的 基本 概念 , 并 
辅 以 有 趣 的 JavaScript 代码 示例 ， 随 时 待 读者 探索 和 修改 。 我 们 还 使 用 示意 图 、 伪 代码 以 及 具体 
示例 来 蔡 代 数学 证 明 ， 帮 助 你 获得 对 深度 学 习 基 本 工作 原理 直观 且 扎 实 的 理解 。 

对 于 第 二 类 读者 ， 本 书 讲解 了 将 已 有 模型 ( 比如 Python 训练 库 生 成 的 模型 ) 转换 成 与 Web 
浏览 需 和 Node.js 服务 硕 端 环境 兼容 且 可 部 署 的 格式 时 ， 所 涉及 的 关键 步 又。 我 们 着 重 说 明 这 些 
步骤 中 的 一 些 实际 要 素 ， 比 如 模型 大 小 和 性 能 的 优化 ， 以 及 对 服务 顺 端 、 浏 览 需 插件、 移动 端 应 
用 程序 等 各 种 部 署 环 境 的 考量 。 

本 书 还 会 为 所 有 读者 深度 讲解 如 何 使 用 TensorFlow.js API， 包 括 读 取 和 格式 化 数据 ， 构 建 和 
加 载 模型 ， 还 有 对 模型 进行 推 新 、 评 估 与 训练 。 

最 后 ， 对 那些 热爱 技术 ， 但 又 不 常用 JavaScript 或 其 他 语言 编程 的 人 而 言 ， 本 书 也 是 不 错 的 
神经 网 络 人 门 或 进 阶 教材 。 


内 容 结构 


本 书 分 为 四 大 部 分 。 第 一 部 分 仅 有 一 草 , 大 至 介绍 了 什么 是 人 工 乔 能、 机 各 学 习 和 深度 学 习 ， 
以 及 为 什么 要 用 JavaScript 进行 深度 学 习 。 

第 二 部 分 深入 浅 出 地 讲解 深度 学 习 中 最 根本 、 最 常见 的 一 些 概 念 。 

口 第 2 音 和 第 3 曹 为 之 后 的 机 融 学 习 内 容 预 热 。 第 2 章 以 如 何 通过 拟 合 一 条 直线 ( 线性 回归 ) 










































































xii 关于 本 书 


从 一 个 数字 预测 男 一 个 数字 为 例 ， 讲 解 反问 传播 算法 这 一 深度 学 习 亚 后 的 引 敬 的 工作 原 
理 。 第 3 章 基 于 第 2 草 的 内 容 , 介绍 非 线 性 、 多 层 神 经 网 络 和 分 类 任务 ,你 将 从 中 了 解 非 
线性 的 定义 、 它 的 工作 原理 以 及 它 赋 予 次 度 神 经 网 络 表现 力 的 原因 。 

口 第 4 章 讲解 图 像 数据 和 专用 于 解决 机 需 学 习 问 题 〈 与 图 像 相 关 ) 的 神经 网 络 架 构 : 卷 积 
网 络 。 此 外 ， 我 们 将 用 一 个 音频 处 理 示例 展示 为 什么 卷 积 的 应 用 不 限于 图 像 人 处理 。 

口 第 5 章 继 续 聚 焦 于 卷 积 网 络 和 类 图 像 的 输入 ， 然 后 会 将 话题 引申 到 迁移 学 习 上 ， 也 就 是 
如 何 基于 已 有 的 模型 训练 新 的 模型 ， 不 用 从 雪 开 始 训练 。 

第 三 部 分 系统 讲解 次 度 学 习 领 域 中 一 些 更 高 级 的 话题 , 这 部 分 主要 针对 希望 了 解 前 沿 技术 的 

谈 者 。 重 点 是 机 融 学 习 系 统 中 一 些 宇 有 挑战 性 的 部 分 ， 以 及 如 何 用 TensorFlow.js 来 处 理 它 们 。 

口 第 6 草 针 对 深度 学 习 讨 论 如 何 处 理 数据 。 

口 第 7 章 展示 如 何 可 视 化 数据 以 及 处 理 数据 的 模型 ， 这 对 任何 深度 学 习 流 程 来 说 都 是 重要 
且 必 不 可 少 的 一 步 。 

口 第 8 草 肾 焦 于 人 欠 拟 合 和 过 拟 合 ， 以 及 相应 的 分 析 与 应 对 技巧 ， 这 些 是 深度 学 习 中 的 重要 
话题 。 通 过 这 一 草 的 讨论 ， 我 们 将 前 几 和 曹 的 知识 凝结 为 一 个 叫 作 “机 需 学 习 通 用 流程 ” 
的 方法 论 。 这 一 章 将 为 你 学 习 第 9 ~ 11 章 中 的 高 级 神经 网 络 架 构 打 好 基础 。 

口 第 9 革 介 绍 用 于 处 理 序 列 数据 和 文本 输入 的 深度 神经 网 络 。 

口 第 10 草 和 第 11 章 分 别 介绍 生成 式 模型 (包括 生成 式 对 抗 网 络 ) 和 强化 学 习 这 两 个 高 级 的 
次 度 学 习 问 题 。 

第 四 部 分 是 本 书 的 最 后 一 部 分 。 

口 第 12 章 讲解 如 何 测试 、 优 化 和 部 署 由 TensorFlow.js 训练 或 转换 而 成 的 模型 。 

口 第 13 草 总 结 全 书 ， 回 顾 书 中 最 重要 的 概念 和 流程 。 

每 一 草 的 结尾 都 有 练习 ， 旨 在 帮助 你 检查 对 相应 章节 的 理解 程度 , 并 且 以 实战 的 方式 强化 你 

用 TensorFlow.js 进行 次 度 学 习 的 技能 。 


天 于 示例 代码 


本 书包 含 的 示例 代码 以 两 种 形式 呈现 , 一 种 是 用 种 编号 的 代码 清单 单独 列 出 , 男 一 种 是 直接 
殴 入 普通 文本 中 。 无 论 是 哪 种 情况 ， 源 代码 都 会 用 等 宽 字 体 显 示 ， 如 meanAbsoluteError。 有 
时 代码 会 用 等 宽 粗 体 显 示 ， 以 突出 较 之 前 发 生变 化 的 代码 ， 比 如 某 一 行 添加 了 新 的 特性 ， 如 
timeSec = kernel * sizeMB + bias,。 

很 多 时 候 ， 原 本 的 代码 会 重新 排版 ， 比 如 增加 换行 符 和 更 改 缩 进 , 这 主要 是 为 了 适 配 当前 页 
面 空 间 。 在 极 少 数 的 情况 下 ， 如果 这 种 做 法 并 不 有 效 ， 就 会 使 用 加 符号 ， 表示 一 行 的 延续 。 男 外 ， 
如 果 正 文中 包含 了 对 代码 的 描述 , 这 时 通常 会 取消 代码 中 的 注释 。 对 于 很 多 代码 清单 ,代码 中 重要 
的 概念 会 以 注解 的 形式 专门 标 出 。 本 书 的 示例 代码 可 以 从 图 灵 社 区 下 载 : http://ituring.cn/book/2813。 




























































































关于 本 书 xiii 
liveBook 在 线 论坛 


购买 本 书 的 读者 可 以 免费 访问 由 Manning 出 版 社 维护 的 专属 Web 论坛 ， 你 可 以 在 那儿 找到 
本 书 的 相关 信息 ， 包 括 原 书 读者 评论 、 拉 术 指 导 、 作 者 和 其 他 用 户 的 互动 等。 论坛 地 址 为 
https://livebook.manning.com/#!/book/deep-learning-with-javascript/discussion 。 要 更 多 地 了 解 关 于 
Manning 论坛 和 论坛 上 的 行为 准则 ,请 访问 以 下 网 站 : https:/livebook.manning.conmy/#!/discussion。 

Manning 致力 于 为 读者 提供 一 个 平台 , 让 读者 之 间 、 读 者 和 作者 之 间 可 以 进行 有 意义 的 对 话 。 
但 这 对 所 有 人 来 说 不 是 强制 的 , 包括 作者 ,他 们 在 论坛 上 的 页 献 完 全 是 目 愿 而 且 无 报酬 的 。 我 们 
建议 你 尽量 问 作者 一 些 有 挑战 性 的 问题 ， 以 激发 他 们 的 兴趣 ! 只 要 本 书 身 文 版 仍 在 销售 中 ,你 就 
可 以 在 Manning 网 站 上 访问 论坛 和 之 前 讨论 话题 的 相关 记录 。 购 买 中 文 版 的 谈 者 可 以 访问 图 灵 社 
区 进行 互动 、 下 载 随 书 资源 、 提 交 勤 误 等 ， 本 书 网 址 为 http://ituring.cn/book/2813。 


电子 书 及 附录 
扫描 如 下 二 维 码 ， 即 可 购买 本 书 中 文 版 电子 版 ， 并 从 “ 随 书 下 载 ” 处 获取 本 书 电子 版 附录 。 
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本 书 封 面 上 的 插画 标题 为 “来 自 Katschin 部 族 的 女孩 ”( Finne Katschin ), 摘 目 Jacques Grasset 
de Saint-Sauveur ( 1757 一 1810 ) 1797 年 在 法 国 出 版 的 地 域 服饰 风俗 图 集 。 该 图 集 名 为 Costumes de 
Différents Pays, 其 中 每 一 幅 插 画 都 是 手工 精心 绘制 并 上 色 的 , 这 些 异 彩 纷呈 的 插画 生动 地 癌 我 们 
描绘 了 200 年 前 世界 各 地 的 服饰 文化 差异 。 由 于 彼此 隔绝 ， 人 们 说 者 不 同 的 方言 和 语言 。 无 论 
是 在 街道 还 是 乡间 , 很 容易 就 能 通过 衣 关 辨别 出 人 们 居住 的 地 方 ， 以 及 他 们 的 职业 和 在 生活 中 的 
地 位 。 

从 那 以 后 , 我 们 的 穿 衣 方式 发 生 了 变化 ， 当 时 如 此 丰 军 的 地 域 差 异 已 逐渐 消失 。 现 在 ,我 们 
已 经 很 难 分 辨 出 不 同 大 陆 的 居民 ， 更 不 用 说 不 同城 镇 、 地 区 和 国家 的 居民 了 。 也 许 , 我 们 以 文化 
的 多 样 性 为 代价 ， 换 来 了 更 多 样 的 个 人 生活 ， 当 然 ， 也 换 来 了 更 多 样 、 更 快 节 雁 的 科技 生活 。 

在 这 个 图 书 同 质 化 的 年 代 ，Manning 将 Grasset de Saint-Sauveur 的 插画 作为 图 书 封面 ， 将 两 
个 世纪 前 各 个 地 区 生活 的 丰富 多 样 性 还 原 出 来 ， 以 此 赞扬 了 计算 机 事业 的 创造 性 和 主动 性 。 
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动机 和 基本 概念 


这 部 分 仅 包 括 第 1 章 ， 旨 在 介绍 一 些 重要 的 基本 概念 ,为 后 续 内 容 做 铺垫 。 这 些 概念 包括 人 
工 智 能 、 机 融 学 习 、 深 度 学 习 ， 以 及 它们 之 间 的 关系 ， 另 外 还 会 谈 到 使 用 JavaScript 进行 深度 学 
习 的 价值 和 潜力 。 








深度 学 习 和 JavaScript 





口 深度 学 习 的 定义 及 其 与 人 工 乔 能 和 机 各 学 习 的 关联 。 

口 深度 学 习 从 各 种 机 带 学 习 技 术 中 脱 宁 而 出 以 及 引发 “深度 学 习 单 命 ” 的 原因 。 
口 使 用 JavaScript 和 TensorFlow.js 进行 深度 学 习 的 原因 。 

口 本 书 的 整体 结构 。 





人 工 智能 (AI) 的 大 热 不 是 偶然 的 , 深度 学 习 单 命 真 的 发 生 了 。 深度 学 习 革 命 ( deep-learning 
revolution ) 是 指 ， 目 2012 年 以 来 次 度 神 经 网 络 在 运行 速度 和 相关 技术 方面 的 疾 速 发 展 。 目 那 时 
起 ,深度 神经 网 络 被 应 用 到 了 越 来 越 多 的 问题 上 ,这样 一 来 ,， 相 比 以 往 , 计算 机 能 够 解决 更 多 种 
类 的 问题 ， 并 极 大 地 提高 了 现 有 解决 方案 的 准确 率 (参见 表 1-1 中 的 示例 )。 对 AI 方面 的 专家 而 
言 ， 神 经 网 络 领 域 的 很 多 突破 是 令 人 震惊 的 ; 对 使 用 神经 网 络 的 工程 师 而 言 ， 这 一 发 展 带 来 的 机 
遇 是 或 舞 人 心 的 。 

从 传统 意义 上 讲 ，JavaScript 是 一 种 用 于 创建 Web 浏览 右 UI 和 后 端 业 务 逻 辑 (通过 Node.js ) 
的 编程 语言 ， 而 次 度 学 习 音 命 似乎 是 Python 、R 和 C++ 这 些 语 言 的 专属 领域 。 因 此 ， 作 为 用 
JavaScript 来 表达 想法 和 发 挥 创造 力 的 人 ， 你 可 能 觉得 目 己 有 点 脱离 深度 学 习 单 命 了 。 本 书 旨 在 
通过 叫 作 TensorFlow.js 的 JavaScript 深度 学 习 库 ， 将 深度 学 习 与 JavaScript 结合 起 来 。 如 此 一 来 ， 
无 须 学 习 新 的 编程 语言 ，JavaScript 开发 者 就 可 以 学 习 如 何 编写 深度 神经 网 络 ; 更 重要 的 是 ,我 
们 相信 深度 学 习 和 JavaScript 本 就 该 在 一 起 。 

这 就 如 同 异 花 授 粉 ， 把 深度 学 习 和 JavaScript 结合 起 来 ， 将 创造 出 任何 其 他 编程 语言 所 不 具 
备 的 独特 功能 。 两 者 结合 相 得 益 豆 : 有 了 JavaScript， 深 度 学 习 应 用 程序 可 以 在 更 多 平台 上 运行 ， 
接触 更 多 受众 ， 变 得 更 加 可 视 化 晶 具 有 互动 性 ; 有 了 深度 学 习 ，JavaScript 开发 者 可 以 让 他 们 的 
Web 应 用 程序 更 加 智能 。 本 章 随 后 将 展示 如 何 实现 这 一 点 。 

表 1-1 列 出 了 目前 这 场 深 度 学 习 单 命中 取得 的 一 些 令 人 兴奋 的 成 就 ， 当 然 ， 示 来 深度 学 习 会 
持续 进步 。 本 书 中 选择 了 一 些 这 样 的 应 用 程序 , 并 用 TensorFlow.js 创建 一 些 示例 来 介绍 它们 的 实 
现 方式 。 这 些 示 例 有 的 是 完整 版 ， 有 的 有 所 人 简 化， 后 面 的 章节 会 深度 讲解 它们 。 因 此 ， 无 须 只 是 
感叹 目前 的 这 些 成 就 ， 在 本 书 中 ， 你 可 以 学 习 它 们 、 理 解 它们 ， 并 使 用 J avaScript 来 实现 它们 。 

但 在 开始 学 习 这 些 令 人 兴奋 的 深度 学 习 实 战 示 例 之 前 ， 我 们 需要 先 介 绍 关 于 _ AI、 这 度 学 习 






























































第 1 章 


和 神经 网 络 的 一 些 上 下 文 。 


表 1-1 


本 书 中 运用 TensorFlow.js 解 ; 


定位 物体 和 网 像 


不 同 自然 语言 的 互 译 








大 词汇 量 连续 语音 识别 


生成 逼真 的 图 像 

生成 音乐 

自动 玩 游戏 

使 用 医学 图 像 进行 疾病 
诊断 





a 参见 何 凯 明 等 人 在 CVPR 2016 (IEEE 国际 计算 机 视觉 与 模式 识别 会 议 ) 上 发 表 的 “Deep Residual Learning for Image Recognition”。 


有 代表 性 的 深度 学 习 技 术 


深度 卷 积 神经 网 络 ”， 如 ResNet 和 Inceptionz， 将 ImageNet 
大 规模 视觉 识别 挑战 赛 中 的 分 类 错误 率 从 2011 年 的 
25%( 近似 值 )， 降 低 至 2017 年 的 不 足 5% 
深度 卷 积 神经 网 络 的 变 体 "将 定位 误差 从 2012 年 的 33%， 
减少 至 2017 年 的 6% 

相 比 最 好 的 传统 机 需 翻 译 技巧 ， 谷 歌 神 经 机 需 翻 译 
( GNMT ) 将 翻译 错误 率 降低 了 约 60%* 


相 比 最 好 的 非 深度 学 习 语 音 识别 系统 ,基于 LSTM 技术 
和 注意 力 机 制 的 编码 带 一 解码 右 架 构 错 词 率 更 低 * 

日 前 生成 式 对 抗 网 络 (GAN ) 已 经 可 以 基于 训练 数据 生 
成 通 真 的 图 像 

循环 神经 网 络 (RNN ) 和 VAE 有 助 于 谱 曲 并 生成 新 颖 的 
旋律 

通过 结合 深度 学 习 与 强化 学 习 ( reinforcement learning )， 
机 需 可 以 学 习 用 纯 像 素 作 为 唯一 输入 来 玩 简 单 的 雅 达 利 
游戏 。 通 过 结合 深度 学 习 与 蒙特 卡 洛 树 搜索 , AlphaZero 
Go 通过 目 我 对 奔 〈self-play ) 学 习 ， 创 造 了 人 类 目前 的 
最 高 水 平 s 

在 糖尿 病 性 视网膜 病变 的 诊断 中 ， 通 过 学 习 病 患 视 网 膜 
的 图 像 ， 深 度 卷 积 神经 网 络 可 以 像 专 业 眼 科 医 生 一 样 敏 
锐 地 发 现 病症 " 

















b 参见 Christian Szegedy 等 人 在 CVPR 2015 上 发 表 的 “Going Deeper with Convolutions”。 
c 参见 陈云 月 等 人 发 表 的 “Dual Path Networks”。 

d 参见 吴 永 辉 等 人 发 表 的 “Google's Neural Machine Translation System: Bridging the Gap between Human and Machine Translation”。 
e 参见 Chung-Cheng Chiu 等 人 发 表 的 “State-of-the-Art Speech Recognition with Sequence-to-Sequence Models”。 

f 参见 Volodymyr Mnih 等 人 发 表 的 “Playing Atari with Deep Reinforcement Learning”。 
g 参见 David Silver 等 人 发 表 的 “Mastering Chess and Shogi by Self-Play with a General Reinforcement Learning Algorithm 。 


h 参见 Varun Gulshan 等 人 发 表 的 “Development and Validation of a Deep Learning Algorithm for Detection of Diabetic Retinopathy in Retinal 


Fundus Photographs” 。 


Q 可 以 从 图 灵 社 区 浏览 并 下 载 相关 资源 : http:Vituring.cn/book/2813。 一 -一 编者 注 


(2) convolutional neutral network， 即 convnet， 卷 积 神经 网 络 。 
@) 访问 Magenta.js 网 站 的 Demos 界面 ， 浏 览 更 多 示例 。 


深度 学 习 和 JavaScript 3 


自 2012 年 深度 学 习 革 命 开始 以 来 ， 由 于 深度 学 习 技术 而 使 得 准确 率 获得 极 大 提高 的 任务 示例 


相似 问题 的 章节 
在 MNIST 数据 集中 训练 convnet 
(第 4 章 )，MobileNet 推断 和 迁 
移 学 习 (第 5 章 ) 
TensorFlow.js 中 的 YOLO 模型 
(3 
基于 长 短期 记忆 网 络 (LSTM )， 
且 具 有 注意 力 机 制 的 序列 到 序 
列 模型 (第 9 章 ) 
基于 注意 力 机 制 的 LSTM 小 词汇 
量 连 续 语 音 识别 (第 9 章 ) 
运用 变 分 自 编 码 器 (VAE ) 和 
GAN 生成 图 像 (第 10 章 ) 
训练 LSTM 生成 文本 (第 9 章 ) 














运用 强化 学 习 解 决 平 衡 倒立 摆 
问题 和 通关 《 贪 吃 蛇 》 游 戏 (第 
11 章 ) 


用 预 训 练 的 MobileNet 图 像 模型 
进行 迁移 学 习 (第 $ 章 ) 


4 第 1 章 深度 学 习 和 JavaScript 


1.1 人工 智能 、 机 器 学 习 、 神 经 网 络 和 深度 学 习 


人 工 智 能 、 机 器 学 习 、 神 经 网 络 和 深度 学 习 这 些 词 虽然 意思 上 有 一 定 关 联 , 但 是 分 别 代表 不 
同 的 概念 。 为 了 系统 而 全 面 地 苔 握 这 些 概念 ， 需 要 理解 它们 各 目的 含义 。 下 面 先 来 定义 这 些 术 请 
和 它们 之 间 的 关系 。 


1.1.1 人 工 智 能 


人 工 智 能 是 一 个 非常 宽泛 的 领域 , 它 的 简洁 定义 是 : 试图 将 通常 需要 人 类 主观 意识 参与 的 任 
务 自动 化 。 正 因 如 此 ， 人 工 智 能 涵盖 了 机 器 学 习 、 神 经 网 络 和 深度 学 习 , 但 又 包含 了 其 他 很 多 和 
机 兢 学 习 不 同 的 策略 。 例 如 ,早期 的 国际 象棋 软件 仅 包含 由 程序 员 精 心 编写 的 硬 编码 规则 ,这 些 
并 不 算是 机 器 学 习 , 因为 机 器 只 是 通过 明确 编写 的 程序 来 解决 问题 , 而 不 是 通过 学 习 数 据 去 探索 
解决 问题 的 策略 。 在 相当 长 的 时 间 内 , 许多 专家 认为 ， 人 类 级 别 的 人 工 智 能 可 以 通过 明确 制定 数 
量 足够 庞大 的 规则 集 来 实现 ， 这 些 规 则 用 于 处 理 知 识 并 做 出 决策 。 这 种 策略 叫 作 符号 人 工 智能 
( symbolic AI ) ”， 它 是 20 世纪 50 年 代 至 80 年 代 主 要 的 人 工 智 能 范式 。 

如 图 1-1 所 示 ， 机 融和 学 习 是 人 工 智能 的 子 领域 。 人 工 千 能 的 一 些 领 域 有 来 用 了 与 机 融和 学 习 不 同 
的 策略 , 如 符号 人 工 智能 。 神经 网 络 是 机 器 学 习 的 子 领域 。 机 器 学 习 中 也 存在 非 神经 网 络 的 技术 ， 
如 决策 树 。 相 较 于 浅 层 神经 网 络 ( 具有 和 较 少 层 的 神经 网 络 )， 深 度 学 习 是 创造 与 应 用 深层 神经 网 
络 (具有 大 量 层 的 神经 网 络 ) 的 科学 与 艺术 。 































人 工 智 能 







神经 网 络 







设 层 
神经 
网 络 









图 1-1 人 工 贸 能 、 机 各 学 习 、 神 经 网 络 和 深度 学 习 之 间 的 关系 





中 符号 人 工 智 能 的 一 种 重要 类 型 是 专家 系统 ( expert system )。 
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1.1.2 机 器 学 习 : 它 和 传统 编程 有 何不 同 


作为 人 工 入 能 的 子 领域 之 一 , 机 带 学 习 与 从 号 人 工 管 能 截然 不 同 , 它 源 于 一 个 问题 : 计算 机 
能 否 超越 程序 员 的 认 知 ， 通 过 自主 学 习 来 完成 一 项 具体 任务 ?如 你 所 见 ， 在 所 采取 的 策略 方面 ， 
机 盘 学 习 和 符号 人 工 贸 能 是 有 本 质 区 别 的 。 符 写 人 工 稼 能 依赖 于 便 编 码 的 知识 和 规则 ,而 机 可 学 
习 竟 力 避 人 免 这 种 便 编 码 。 如 采 没 有 程序 员 精 心 编 写 的 便 编 码 规则 ， 机 各 怎样 去 学 习 完 成 某 项 任 
务 ? 答案 就 是 从 数据 的 例子 中 学 习 。 

这 种 思路 开局 了 一 局 通 往 新 编程 范式 的 大 门 ， 如 图 1-2 所 示 。 现 在 举例 说 明 这 种 机 右 学 习 邢 
式 ， 假设 你 在 开发 一 个 Web 应 用 程序 ， 它 能 够 处 理 用 户 上 传 的 照片 。 你 想 做 的 一 个 功能 是 目 动 
区 分 包含 人 脸 的 照片 和 不 包含 人 脸 的 照片 ,并且 据 此 采取 不 同 的 动作 。 也 就 是 说 ,新 创建 的 这 个 
程序 能 够 将 所 有 输入 图 像 ( 由 像素 数组 构成 ) 输出 为 二 元 答案 ， 即 包含 人 脸 和 不 包含 人 脸 。 


























规则 
经 典 编程 答案 
数据 








数据 
机 粥 学 习 规则 
答案 


图 1-2 对比 经 典 编 程 范式 和 机 各 学 习 范 式 


人 类 能 够 在 一 瞬间 完成 这 个 任务 : 大 脑 里 固有 的 遗传 因子 和 人 生 经 验 赋予 了 我 们 这 样 的 能 
力 。 然而, 要 用 编程 语言 ( 唯一 可 行 的 人 机 交流 方式 ) 写 一 侄 明 确 的 规则 来 准确 判断 菏 个 图 像 中 
是 人 否 包 含 人 脸 ， 对 任何 程序 员 来 说 ,无论 他 聪明 与 否 或 经 验 多 和 舞 ,这 痢 是 一 件 很 难 的 事情 。 对 于 
如 何 通 过 计算 像素 的 RGB 值 *, 来 检测 那些 看 起 来 像 脸 部 、 眼 睛 、 嘴 巴 的 椭圆 轮廓 ， 你 可 以 花 很 
多 天 进行 研究 , 也 可 以 设计 这 些 轮廓 之 间 关 系 的 经 验 法 则 。 但 你 会 很 快 发 现 ， 这 些 尝试 充 斤 着 随 
意 的 逻辑 和 站 不 住 脚 的 参数 。 更 重要 的 是 ， 这 么 做 的 效果 还 不 太 好 ”! 现实 中 有 众多 因素 ， 比 如 
脸 部 大 小 和 形状 、 面 部 表情 和 细 下 特征、 发型、 肤色 、 面 部 方 铝 、 有 无 遮挡 、 和 是否 佩戴 眼镜 、 光 
照 环境 、 画 面 育 景 等 ， 这 些 因 素 会 影响 判断 ， 因 此 面 对 图 像 无 穷 的 变化 ， 你 能 想到 的 任何 经 验 法 
则 都 会 显得 捉襟见肘 。 

在 机 各 学 习 施 式 中 ， 人 工 编 写 一 盒 判 断 规则 对 于 这 样 的 任务 是 徒 郁 的 。 相反, 你 要 先 找 一 些 
图 像 ， 一 部 分 包含 人 脸 , 一 部 分 不 包含 人 脸 。 然 后 为 每 一 个 图 像 都 写 下 预期 的 正确 管 案 ,， 也 就 是 
包含 人 脸 或 不 包含 人 脸 ， 这 些 答案 叫 作 标签 (label ),。 事实 上 ,这 是 一 个 更 可 控 也 更 简单 的 任务 。 
如 采 有 很 多 图 像 ， 标 记 全 部 图 像 可 能 要 论点 时 间 ， 但 是 标记 任务 可 以 分 发 给 多 个 人 同时 进行 。 












































QD R、G、B 分 别 代 表 红 、 绿 、 蓝 这 3 种 颜色 。 
@) 事实 上 , 很 多 人 确实 尝试 过 这 类 方法 , 效果 并 不 理想 。 参见 Erik Hjelmas 和 Boon Kee Low 所 车 的 论文 “Face Detection: 
A Survey”， 其 中 提供 了 一 些 典 型 示例 ， 即 在 深度 学 习 出 现 之 前 ， 利 用 人 工 设计 规则 进行 人 脸 识 别 。 
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一 旦 标记 完毕 ， 就 可 以 利用 机 需 学 习 技 术 ， 让 机 带 目 己 探索 出 一 套 规 则 。 经 过 机 需 学 习 技 术 正 
确 训 练 的 规则 ， 执 行 判 断 的 准确 率 能 超过 99%， 比 通过 人 工 编写 规则 能 取得 的 任何 成 果 都 要 好 
得 多 。 

从 上 面 的 例子 可 以 看 出 , 机 带 学 习 就 是 目 动 发 现 解 决 复 林 问题 的 规则 的 过 程 。 这 种 目 动 化 对 
人 脸 检 测 这 类 问题 很 有 帮助 ， 在 这 类 问题 中 ， 人 们 能 直观 地 知道 规则 并 很 容易 为 数据 建立 标签 。 
对 于 其 他 问题 ， 规 则 就 不 这 么 直观 了 。 比 如 ， 假 设 我 们 要 预测 用 户 是 否 会 点 击 网 页 上 显示 的 广 
告 ， 页 面 内 容 、 广 告 内 容 以 及 其 他 信息 ( 比如 浏览 时 间 和 广告 位 置 ) 都 是 已 知 的 。 即 使 这 样 ， 
也 没有 人 可 以 对 这 类 问题 做 出 准确 判断 。 即 使 可 以 ， 这 种 规律 也 会 随 着 时 间 推 移 以 及 新 的 页 面 
和 广告 内 容 的 引入 而 发 生 改 变 。 但 也 不 用 灰心 , 在 提供 广告 服务 的 服务 需 日 志 里 ， 市 标签 的 可 用 
于 训练 的 数据 是 存在 的 ， 而 且 很 容易 找到 。 正 是 由 于 这 些 数 据 和 标签 ,机 带 学 习 非 党 擅长 处 理 此 
类 问题 。 

图 1-3 中 详细 列 出 了 机 天 学 习 所 包含 的 步 又 ， 其 中 包含 两 个 重要 阶段 。 第 一 个 是 训练 阶段 
( training phase )。 这 一 阶段 的 输入 是 数据 和 答案 ， 叫 作 训练 数据 ( training data )。 每 一 对 作为 输入 
的 数据 和 预期 的 答案 叫 作 样 例 (example )。 根据 这 些 样 例 , 训练 流程 就 可 以 目 动 发 现 规则 ( rule )。 
尽管 这 些 规则 是 自动 发 现 的 , 但 是 它们 并 非 赁 空 创 造 。 换言之 , 机 楷 学 习 算法 并 不 是 通过 目 由 发 
挥 得 出 这 些 规 则 , 人 类 工程 师 在 训练 之 初 就 提供 了 这 些 规 则 的 蓝图 。 这 个 蓝图 封装 在 模型 ( model ) 
中 ， 而 模型 又 形成 了 机 如 潜在 可 学 习 的 规则 的 假设 空间 (hypothesis space )。 如 果 没 有 这 个 假设 
空间 , 机 融 就 会 在 一 个 完全 无 约束 并 且 无 限 大 的 可 能 规则 空间 中 寻找 规则 , 对 于 在 有 限时 间 内 找 
到 较为 完善 的 规则 ,这 显然 是 无 益 的 。 本 书后 面 将 具体 描述 可 利用 的 模型 的 种 类 ,以 及 如 何 根 据 
具体 问题 选择 最 佳 的 模型 。 现 在 只 需 知道 ， 在 深度 学 习 中 ,根据 神经 网 络 的 组 成 层 数 、 每 一 层 的 
具体 类 型 以 及 各 层 之 间 的 连接 关系 ， 模 型 最 终 会 有 所 不 同 。 
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图 1-3” 比 图 1-2 更 为 详细 的 机 兴 学 习 范 式 示 意图 。 机 兴 学 习 的 工作 流程 由 两 个 阶段 构成 : 
训练 阶段 和 推断 阶段 。 在 训练 阶段 中 ， 机 名 上 自动 发 现 数据 与 对 应 答案 之 间 的 规则 ， 
这 个 过 程 中 发 现 的 规则 会 封 竣 在 训练 好 的 模型 中 。 它 们 是 训练 阶段 的 成 果 ， 并 且 为 
推断 阶段 莫 定 基础 。 推 断 阶 段 指 运用 习 得 的 模型 为 新 的 数据 获取 答案 


基于 训练 数据 和 柑 型 淋 构 ,在 训练 阶段 中 ,机 禹 可 以 习 得 数据 与 答案 之 间 的 转换 规则 ,并 将 
其 封 法 在 训练 好 的 模型 ( trained model ) 中 。 这 个 过 程 将 规则 的 蓝图 作为 输入 ， 并 且 对 其 进行 改 
变 (或 微调 )， 让 模型 输出 的 结果 越 来 越 交 近 预 期 结果 。 根 据 训练 数据 的 多 少 、 模 型 染 构 的 复 末 
度 和 人 硬件 的 快慢 ,这 一 训练 阶段 会 持续 几 晕 秒 到 几 天 。 这 种 机 右 学 习 方式 ,也 就 是 用 市 标签 的 样 
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例 来 逐步 减 小 模型 输出 误差 的 方法 ， 叫 作 监 督 式 学 习 ( supervised learning ) “。 本 书 中 提 到 的 绝 
大 部 分 深度 学 习 算 法 属于 监督 式 学 习 。 一 旦 有 了 训练 好 的 模型 ,就 可 以 将 习 得 的 规则 应 用 到 新 数 
据 上 了 (包括 训练 阶段 没有 出 现 的 数据 )、 以 上 就 是 第 二 阶段 ， 即 推断 阶段 (inference phase )， 

这 一 阶段 相 较 训 练 阶段 计算 量 较 少 ， 主 要 有 两 个 原因 : 第 一 , 推 业 阶段 通常 每 次 只 针对 一 个 输入 
(比如 图 像 )， 而 训练 阶段 则 需要 处 理 所 有 的 训练 数据 ; 第 二 ,在 推 基 阶段 ， 模 型 月 身 不 会 有 任何 


变化 。 


学 习 数 据 的 表示 

机 融 学 习 就 是 要 从 数据 中 学 习 。 但 到 底 学 习 哪 些 内 容 呢 ? 其 实 就 是 一 种 有 效 地 转换 
( transform ) 数据 的 方法 ， 换 言 之， 将 数据 从 旧 表 示 转 换 为 新 表示 ， 从 而 更 有 效 地 解决 现 阶 段 的 
问题 。 

在 进一步 展开 讨论 之 前 ， 先 来 看 一 下 “表示 ”的 概念 。 简 明 来 说 ， 表 示 ( representation ) 是 
一 种 处 理 数据 的 方式 。 通 过 不 同 的 处 理 方式 ， 同 一 组 数据 可 以 有 不 同 的 表示 。 比 如 ， 彩 色 图 像 
可 以 用 RGB 或 者 HSV? 来 编码 。 这 里 ， 编 码 (encoding ) 和 表示 实质 上 指 的 是 同一 个 东西 ， 它 
们 可 以 交换 使 用 。 用 这 两 种 方式 编码 得 到 的 代表 图 像 像 素 的 数值 是 完全 不 同 的 ， 尺 管 编码 对 象 
是 同一 个 图 像 。 不 同 的 表示 适用 于 解决 不 同 的 问题 。 例 如 ， 要 找 出 一 个 图 像 中 所 有 的 红色 部 分 ， 
使 用 RGB 表示 会 比较 简单 。 但 要 找到 同一 个 图 像 中 颜色 饱和 的 部 分 ， 则 HSV 表示 更 有 用 。 这 
实际 上 就 是 机 融 学 习 的 本 质 : 找到 一 种 合适 的 方式 把 输入 数据 的 旧 表 示 转 换 成 新 表示 ， 并 且 这 
一 新 表示 适用 于 解决 当下 特定 的 任务 ， 比 如 检测 图 像 中 车 辆 的 位 置 或 者 判断 图 像 中 出 现 的 是 猫 
还 是 狗 。 

再 看 一 个 示例 ， 图 1-4 中 展示 了 一 些 白 点 和 黑 点 。 假 设 我 们 想 人 研发 一 种 算法 ， 这 个 算法 能 够 
将 某 个 点 的 二 维 坐 标 (x,y) 作 为 输入 ， 预测 该 点 是 黑色 还 是 白色 。 在 这 个 场景 中 ,主要 涉及 以 下 两 
dpi 

口 输入 数据 是 某 个 点 的 二 维 坐 标 ( 模 坐标 值 和 纵 侍 标 值 )。 

口 输出 是 该 点 的 颜色 的 预测 值 ( 黑色 或 白色 )。 

实际 数据 展现 出 的 规律 如 图 1-4a 所 示 。 给 定 x 和 yy 的 值 后 , 机 需 如 何 判 断 该 位 置 的 颜色 呢 ? 
不 能 只 是 简单 地 将 * 与 某 个 数字 进行 比较 ， 因 为 黑 点 和 日 点 的 横 坐 标 值 域 是 重 登 的 ! 同 理 , 也 不 
能 单纯 地 取决 于 y。 因 此 ， 可 以 得 出 这 样 的 结论 : 对 黑白 分 类 任务 而 言 ， 坐 标点 原来 的 表示 并 不 
是 很 友好 。 

而 我 们 需要 的 是 能 更 简单 明了 地 区 分 两 种 颜色 的 新 表示 。 因 此 , 此 处 将 原来 的 笛 卡 儿 坐 标 系 
表示 转换 为 极 坐 标 系 表 示 。 换 言 之 ,用 该 点 的 角度 和 半径 来 表示 它 。 其 中 ,角度 由 x 坐标 轴 和 点 
到 原点 的 连 线 构成 ( 见 图 1-4a )， 半 径 是 指点 到 原点 的 距离 。 经 过 这 一 变换 ， 我 们 得 到 了 同一 组 
数据 的 新 表示 ， 如 图 1-4b 所 示 。 这 一 表示 更 适用 于 当前 的 任务 ， 现 在 黑 点 和 白 点 的 角度 值 完全 
























































OQ 另 一 种 机 器 学 习 方 法 是 无 监督 式 学 习 ( unsupervised learning )， 它 使 用 无 标签 数据 。 这 方面 的 示例 包括 聚 类 和 异常 
检测 ， 前 者 发 现 数据 集中 不 同 的 样 合子 集 ， 后 者 判断 给 定 的 样 例 与 训练 集中 的 样 例 是 否 存在 显著 不同。 
QH、S、V 分 别 代 表 色 相 、 饱 和 度 、 明 度 。 
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不 会 重 三 。 然 而 ， 这 个 新 表示 仍 不 够 理想 ， 因 为 它 还 不 能 通过 与 一 个 国 值 (比如 0 ) 的 简单 比较 
得 出 颜色 的 分 类 。 





(角度 的 绝对 值 ) -135 度 


图 1-4 示例 : 机 种 学 习 束 是 寻求 有 效 的 表示 转换 。(a) 平 面 上 由 有 霖 点 和 日 点 组 成 的 数据 
集 的 原 表示 。(b)(c) 两 次 连续 的 转换 将 原 表示 转换 成 一 个 更 适合 颜色 分 类 任务 的 
表 不 


幸运 的 是 ， 我 们 可 以 进行 第 二 次 变换 来 达到 此 日 的 。 这 一 变换 基于 下 面 这 个 简单 的 公式 : 
( 角度 的 绝对 值 ) - 135 度 

这 次 变换 得 到 的 表示 ， 如 图 1-4c 所 示 ， 是 一 维 的 。 与 图 1-4b 中 的 表示 相 比 ， 这 样 做 可 以 将 
各 点 到 原点 的 距离 这 一 不 相干 的 信息 噜 除 。 从 颜色 分 类 任务 的 角度 而 言 ， 这 个 表示 恰到好处 ， 
为 它 让 决策 过 程 变 得 极其 简单 . 

如 果 公式 计算 结果 小 于 0， 则 点 为 白色 ; 

和 否则， 点 为 黑色 

在 上 面 的 示例 中 , 我 们 为 原 表 示人 为 地 选择 了 两 个 转换 步骤 。 但 是 ， 如 果 能 以 颜色 分 类 的 准 
确 率 作为 依据 ,实现 上 自动 搜索 各 种 可 能 的 坐标 转换 ， 那 就 是 机 融和 学 习 了 。 解决 实 际 机 玫 学 习 问 题 
所 需 的 转换 步骤 通常 远 多 于 两 个 。 特 别 是 在 深 度 学 习 中 ,甚至 可 能 达到 上 百 个 。 同 时， 实际 机 天 
学 习 中 涉及 的 表示 转换 可 能 比 这 个 简单 示例 中 的 要 复杂 得 多 。 深度 学 习 领 域 的 研究 仍 在 不 断 发 现 
更 复杂 且 强 大 的 转换 ， 图 1-4 正 诠释 了 “搜索 更 好 的 表示 ”这 一 本 质 。 这 一 点 适用 于 所 有 机 融 学 
习 算 法 ,包括 神经 网 络 、 诀 策 树 、 核 方法 以 及 其 他 算法 等 。 
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1.1.3 ”神经 网 络 和 深 度 学 习 


神经 网 络 是 机 带 学 习 的 子 领 域 , 其 中 实现 数据 表示 转换 的 系统 ,其 染 构 部 分 参考 了 人 和 动物 
大 脑 中 神经 元 的 连接 方式 。 那么 , 大 脑 中 的 神经 元 是 如 何 连 接 的 呢 ? 虽 然 连接 方式 会 因 物 种 和 大 
脑 区 域 而 有 所 不 同 , 但 有 一 点 是 共通 的 , 那 束 是 层 结构 。 哺 乳 动 物 大 脑 的 很 多 部 分 展现 了 层 的 特 
征 ， 比 如 视网膜 、 大 脑 皮 层 和 小 脑 皮 层 。 

至 少 表面 上 看 来 ， 这 一 特征 和 人 工 神经 网 络 " 的 结构 大 体 相似 ， 它 们 的 数据 都 是 通过 多 个 可 
分 离 的 步 又 进行 处 理 的 。 因 此 ,将 这 些 步 又 称 为 层 (layer ) 恰如其分 。 这 些 层 通 稼 彼此 二 加 ， 只 
有 相 邻 的 层 之 间 会 建立 连接 。 图 1-5 展示 了 一 个 简单 的 含有 4 层 的 神经 网 络 ， 这 个 神经 网 络 能 够 
对 手写 数字 的 图 像 进 行 分 类 ， 在 层 与 层 之 间 可 以 看 到 原 数据 的 表示 在 转换 过 程 中 形成 的 中 间 表 
示 。 输 入 数据 〈 此 处 是 一 个 图 像 ) 进入 第 1 层 (图 1-5 的 左 侧 )， 然 后 按 顺 序 一 层 层 流入 ， 每 一 
层 都 会 对 数据 的 表示 进行 一 次 转换 。 随 着 数据 经 过 越 来 越 多 的 层 ， 表示 会 越发 俩 离 原 表示 ， 而 越 
发 接近 神经 网 络 的 目标 ， 那 就 是 为 输入 图 像 打 上 正确 的 标签 。 当 数据 经 过 最 后 一 层 ( 图 1-5 的 右 
侧 ) 后 ， 就 会 产生 神经 网 络 的 最 终 输出 ， 即 图 像 分 类 任务 的 结果 。 


第 1 层 表 未 第 2 层 表示 第 3 层 表 示 
原始 输入 | 


第 4 层 表示 
p. ] (最 终 输 出 ) 
第 1 层 


第 4 层 
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图 1-5 ”一 个 由 层 组 成 的 神经 网 络 的 示意 图 ， 弗 明 索 瓦 ， 肖 莱 版 权 所 有 ” 


神经 网 络 中 的 层 和 数 竺 中 的 函数 概念 相似 , 它们 都 是 从 输入 值 到 输出 值 的 映 映 。 然 而 它们 又 
有 所 不 同 ， 这 是 因为 神经 网 络 中 的 层 是 有 状态 的 〈stateful )。 换 言 之 ， 它 们 在 内 部 你 留 有 记忆 ， 
这 些 记忆 封 次 在 相应 的 权重 中 。 权 重 〈weight ) 就 是 一 组 属于 层 的 数值 ， 这 些 数 值 决 定 了 每 一 个 
输入 的 表示 如 何 转换 成 输出 的 表示 。 比 如 ， 第 用 的 密集 层 〈(dense layer ) 在 转换 输入 数据 时 ， 会 
将 它 乘 以 一 个 官 阵 ， 然 后 让 该 绪 采 加 上 一 个 回 量 ,这 里 的 矩阵 和 回 量 就 是 密集 层 的 权重 。 当 神经 











GO artificial neural network， 也 可 以 简称 为 neural network， 即 神经 网 络 ， 在 计算 机 领域 这 种 说 法 并 没有 歧义 。 
@) 摘自 弗 朋 索 瓦 ， 肖 莱 所 著 的 《Python 深度 学 习 》 一 书 。 
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网 络 用 数据 进行 训练 时 ,各 层 的 权重 会 进行 系统 性 修改 ,最 终 让 损失 函数 (1oss function ) 的 值 趋 
于 最 小 。 第 2 章 和 第 3 草 中 会 用 具体 的 示例 进行 说 明 。 

尽管 神经 网 络 确实 从 人 类 大 脑 结构 中 汲取 了 部 分 灵感 , 但 是 我 们 不 应 将 这 两 者 过 度 类 比 。 神 
经 网 络 不 是 为 了 学 习 或 模仿 人 类 大 脑 的 工作 机 制 , 它 是 完全 不 同 的 学 术 领 域 神经 科学 的 研究 
范畴 ， 旨 在 让 机 融 能 够 通过 学 习 数 据 来 执行 有 意义 的 实际 任务 。 在 结构 和 功能 方面 ， 虽 然 有 些 神 
经 网 络 和 人 类 大 脑 的 某 些 部 分 确实 有 不 可 思议 的 相似 性 "， 但 是 关于 这 一 点 的 可 靠 性 超出 了 本 书 
的 讨论 范畴 。 无 论 怎样 ， 这 种 相似 性 不 应 被 过 度 解 谈 。 尤 其 是 目前 并 没有 证 据 表 明 大 脑 通过 任何 
形式 的 梯度 下 降 优 化 进行 学 习 ， 而 这 恰恰 是 神经 网 络 的 主要 训练 方式 (参见 第 2 章 )。 对 于 很 多 
引领 深度 学 习 单 命 的 重要 的 神经 网 络 技术 ， 它 们 的 发 明和 应 用 并 不 是 因为 有 神经 科学 的 理论 文 
撑 ， 而 是 因为 能 帮助 神经 网 络 更 好 、 更 快 地 解决 实际 学 习 任 务 。 

了 解 神 经 网 络 之 后 ， 接 下 来 看 一 下 深度 学 习 ( deep learning ) 的 概念 。 深 度 学 习 束 是 关于 深 
度 神 经 网 络 ( deep neural network ) 的 学 习 和 应 用 。 而 深度 神经 网 络 , 简单 来 说 , 就 是 有 很 多 层 ( 通 
第 多 达 数 十 甚至 上 百 层 ) 的 神经 网 络 。 在 这 里 ， 深 (deep ) 是 指 为 数 众 多 的 连续 的 表示 层 ， 数 据 
模型 拥有 的 层 数 叫 作 模型 的 深度 ( depth )。 这 一 领域 还 有 其 他 名 称 ， 比 如 分 层 表 示 学 习 (layered 
representation learning ) 和 层级 表示 学 习 ( hierarchical representation learning )。 现 代 深 度 学 习 通 常 
包含 数 十 至 上 百 个 连续 的 表示 层 , 它们 都 是 从 训练 数据 中 目 动 学习 的 。 与 此 相反 ， 其 他 机 如 学 习 
方法 倾 回 于 专注 学 习 一 到 两 个 表示 层 ， 因 此 ， 它 们 又 叫 作 浅 层 学 习 ( shallow learning )。 

将 深度 学 习 中 的 “次 ” 解 谈 为 对 数据 的 次 刻 理 解 是 错误 的 。M. C. Escher 画作 中 目 我 指 涉 
( self-reference ) 所 造成 的 悖 论 可 谓 深刻 , 但 这 种 深刻 对 AI 研究 者 而 言 仍 是 不 可 企及 的 目标 ”。 也 
许 在 未 来 , 深度 学 习 会 让 我 们 更 接近 这 样 的 深刻 , 但 它 肯 定 没 有 像 给 神经 网 络 添加 层 这 样 容易 量 
化 和 实现 。 



































言 息 栏 和 -1 神经 网 络 不 是 唯一 选择 : 其 他 机 器 学 习 技术 

回顾 图 1-1， 我 们 现在 从 “机 器 学 习 ” 的 大 圈 进 入 了 “和 神经 网 络 ”的 小 圈 。 然 而 ， 在 深入 
探索 之 前 , 大 致 了 解 一 些 非 神经 网 络 机 器 学 习 技 术 是 十 分 有 益 的 。 这 不 仅 能 帮助 我 们 了 解 机 器 
学 习 发 展 的 历史 背景 ， 而 且 可 以 在 现 有 代码 中 很 好 地 理解 它们 的 用 法 。 

朴素 贝 叶 斯 分 类 器 ( naive Bayes classifier ) 是 最 早 的 机 器 学 习 方 法 之 一 。 简 单 地 说 ， 对 于 
计算 事件 发 生 概 率 的 贝 叶 斯 定理 ， 其 实现 过 程 基于 两 个 前 提 : 第 一 ， 对 已 有 事件 发 生 可 能 性 的 
先 验 认 知 ; 第 二 ， 观 测 到 的 数据 ， 即 特征 (feature )。 这 一 方法 可 以 用 观测 到 的 数据 计算 每 个 
事件 类 别 对 应 的 概率 ， 然 后 按照 最 高 的 概率 〈 事件 发 生 可 能 性 )， 将 观测 到 的 数据 划 入 一 个 已 
知 的 类 别 。 该 方法 假设 观测 到 的 数据 之 间 是 相互 独立 的 , 这 是 一 个 非常 强 的 假设 , 同时 对 现实 
中 的 现 参 有 所 简化 ， 名 字 中 的 “朴素 ” 正 是 由 此 而 来 。 





第 4 章 有 一 个 关于 功能 相似 性 的 示例 较 具 说 服 力 ， 其 中 展示 了 一 些 输入 如 何 最 大 限度 地 激活 卷 积 神经 网 络 的 各 个 
层 ， 这 与 人 类 视觉 系统 各 部 分 的 神经 元 感受 野 (neuronal receptive field ) 的 功能 非常 相似 。 
@) 参见 Douglas Hofstadter 发 表 的 文章 “The Shallowness of Google Translate ”。 
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逻辑 回归 ( logistic regression ) 也 是 一 种 分 类 方法 。 由 于 其 简单 和 灵活 多 变 的 特性 ， 它 至 
今 都 非常 流行 ， 通 常 是 数据 科学 家 处 理 分 类 任务 的 首选 方法 。 

核 方 法 ( kernel method ) 主要 用 于 解决 二 分 类 问题 ， 即 共有 两 种 类 别 的 问题 。 它 将 原 数据 
映射 到 新 的 更 高 维 空间 ,， 并 寻找 一 种 转换 方式 ， 实 现 两 种 类 别 示例 之 间距 离 ( 又 称 margin， 即 
间隔 ) 的 最 大 化 ， 从 而 进行 分 类 。 支 持 向 量 机 (SVM ) 是 核 方法 最 有 代表 性 的 例子 。 

决策 树 ( decision tree ) 的 结构 与 流程 图 类 似 。 可 以 对 输入 的 数据 进行 分 类 ， 或 者 根据 输 
入 的 数值 预测 输出 。 在 流程 图 的 每 一 步 ， 只 需要 简单 地 回答 一 个 答案 为 “是 ”或 “ 否 ” 的 问题 ， 
比如 “X 特征 的 值 是 否 大 于 特定 装 值 ” 。 每 一 步 的 流程 取决 于 所 选 答 生 ， 然 后 进入 答 生 对 应 的 
路 径 ， 在 那里 会 出 现 另 一 个 “是 ”或 “ 否 ” 的 问题 ， 以 此 类 推 。 一 旦 到 达 了 流程 图 的 终点 ， 也 
就 获得 了 最 终 的 答 生 。 如 你 所 见 ， 对 所 有 人 而 言 ， 决 策 树 非常 直观 且 容易 理解 。 

随机 森林 (random forest ) 和 梯度 提升 机 ( gradient-boosted machine ) 通过 整合 大 量 有 特定 
功能 的 决策 树 来 提高 整体 的 准确 率 。 集 成 化 (ensembling ) 又 名 集成 学 习 〈ensemble learning )， 
这 种 方法 会 训练 一 些 机 器 字 习 模型 的 集合 ( 集成 )， 并 在 推断 阶段 将 它们 的 整体 输出 作为 推断 
结果 。 现 在 ,梯度 提升 是 用 来 处 理 非 感知 数据 最 好 的 算法 之 一 ， 例 如 信用 卡 诈骗 检测 中 的 信用 
数据 。 和 深度 学 习 一 样 ， 它 也 是 Kaggle 这 类 数据 科学 竞赛 中 较为 常用 的 技巧 。 


神经 网 络 的 崛起 、 陨 落 和 回归 ， 以 及 这 些 现 象 背后 的 原因 

神经 网 络 的 核心 思想 早 在 20 世纪 50 年 代 就 成 形 了 。 训 练 神经 网 络 的 关键 技术 , 包括 反 向 传 
播 算法 , 在 20 世 纪 80 年 代 就 出 现 了 。 然 而 ，20 世纪 80 年 代 至 21 世纪 前 十 年 这 一 段 漫 长 的 时 期 
里 ,神经 网 络 技术 在 研究 社区 里 几乎 完全 进入 了 垫 伏 期 ,原因 包括 支持 向 量 机 等 同类 技术 的 流行 ， 
以 及 当时 缺乏 训练 深度 神经 网 络 ( 非常 多 层 ) 的 能 力 。 但 是 ， 在 2010 年 前 后 ， 很 多 坚持 奋战 在 
神经 网 络 领域 的 人 们 开始 取得 意义 重大 的 突破 , 这 些 人 包括 : 多 伦 多 大 学 的 Geoffrey Hinton 研究 
小 组 、 和 蒙特利尔 大 学 的 Yoshua Bengio、 纽 约 大 学 的 Yann LeCun 和 瑞士 意大利 场 区 高 等 专业 学 院 
Dalle Molle 人 工 智能 研究 所 (IDSIA ) 的 研究 者 。 这 些 团体 取得 了 很 多 里 程 碑 式 的 成 果 ， 包 括 第 
一 次 在 GPU (图 形 处 理 单元 ) 上 真正 实现 深度 神经 网 络 ， 以 及 将 ImageNet 计算 机 视觉 比赛 中 的 
错误 率 从 25% 降 到 不 足 5% 等 。 

自 2012 年 以 来 ， 深 度 卷 积 神经 网 络 已 经 成 了 所 有 计算 机 视觉 任务 的 首选 算法 ; 说 得 更 宽泛 
点 儿 ， 它 们 适用 于 所 有 感知 性 任务 。 语 音 识别 就 是 非 计 算 机 视觉 的 感知 性 任务 示例 之 一 。 在 
2015 一 2016 年 的 大 型 计算 机 视觉 会 议 中 ， 几 乎 所 有 的 演讲 报告 都 和 convnet 有 某 种 程度 的 关联 。 
同时 ， 深 度 学 习 还 应 用 到 了 其 他 一 些 问 题 上 ， 比 如 自然 语言 处 理 。 它 在 各 种 应 用 程序 中 取代 了 
SVM 和 决策 树 的 地 位 , 例如 对 于 ATLAS 探测 器 在 大 型 强 子 对 撞 机 上 获得 的 粒子 数据 ,多 年 来 欧 
洲 核 子 研究 组 织 ( CERN ) 一 直 采 用 基于 决策 树 的 方法 进行 分 析 。 但 是 ， 考 虑 到 神经 网 络 性 能 
佳 ， 在 大 数据 集 上 易于 训练 ，CERN 最 终 还 是 转向 了 深度 神经 网 络 的 阵营 。 

那么 ， 为 什么 深度 学 习 会 从 所 有 的 机 需 学 习 算 法 中 脱颖而出 呢 ? (参见 信息 栏 1-1 中 列 出 
的 一 些 流 行 的 非 深 度 神 经 网 络 的 机 需 学 习 方 法 。) 深度 学 习 快 速 电 起 的 主要 原因 是 它 能 在 很 多 
问题 上 获得 更 好 的 性 能 ,但 这 并 不 是 唯一 的 原因 。 深 度 学 习 还 让 人 解决 问题 变 得 更 简单 ， 因 为 它 
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能 实现 特征 工程 ( feature engineering ) 的 目 动 化 ， 这 一 度 是 机 带 学 习 流 程 中 最 重要 、 最 困难 的 
对 于 前 面 介 绍 的 浅 层 学 习 , 这 种 机 需 学 习 技 术 通 稼 只 需 借 助 简 单 的 转换 方法 , 如 非 线性 高 维 
映射 〈( 核 方法 ) 或 决 案 树 等 ， 将 输入 数据 转换 成 一 个 或 两 个 连续 的 表示 空间 。 但 是 复杂 问题 所 需 
的 表示 更 为 精细 ， 这 些 技术 无 法 实现 。 因 此 ， 人 类 工程 师 不 得 不 在 原始 的 输入 数据 上 耗费 更 多 的 
精力 ， 证 它们 也 能 够 由 这 些 技 术 处 理 。 也 就 是 说 ， 工 程 师 必须 手动 为 数据 设计 合适 的 表示 层 ， 这 
就 是 特征 工程 。 相 对 而 言 ， 次 度 学 习 可 以 目 动 实现 这 个 过 程 。 通 过 深度 学 习 ， 可 以 伴 助 程序 一 次 
性 学 习 所 有 特征 ， 无 须 手动 设计 。 这 极 大 地 人 简化 了 机 带 学 习 的 流程 ， 从 而 可 以 将 复杂 、 精 细 的 多 
步骤 流水 线 蔡 换 成 单个 、 人 简单 的 端 到 闪 次 度 学 习 模 型 。 通 过 实现 特征 工程 上 自动化， 次 度 学 习 减 少 
了 机 带 学 习 所 需要 的 人 力 投 入 ， 模 型 本 身 变 得 更 为 稳健 ， 可 谓 一 季 双 雕 。 

在 学 习 数 据 时 ， 深度 学 习 有 两 个 至 关 重 要 的 特点 : 一 是 循序 渐进 、 一 层 接 一 层 地 发 展 更 为 复 
末 的 表示 ; 二 是 在 整个 过 程 中 ,中 间 这 些 递 进 的 表示 层 同 时 是 被 学 习 的 ， - 层 的 更 新 都 会 同时 
兼顾 上 层 和 下 层 的 表示 需求 。 正 是 这 两 个 特点 的 结合 , 使 深度 学 习 相 比 之 前 的 机 需 学 习 策 略 获得 
了 更 大 的 成 功 。 



































1.1.4 ”进行 深度 学 习 的 必要 性 


如 果 神 经 网 络 的 基本 思想 和 核心 技术 早 在 20 世纪 80 年 代 就 已 存在 ， 为 什么 直到 2012 年 后 
才 发 生 深度 学 习 音 命 呢 ? 在 中 间 的 30 多 年 里 都 发 生 了 什么 ”总 体 来 说 ， 有 3 股 技术 力量 推动 了 
机 和 性 学 习 的 发 展 : 

口 便 件 

口 数据 集 和 基准 

口 算法 上 的 革新 

接 下 来 逐个 看 一 下 这 些 关键 因素 。 


1. 硬件 

深度 学 习 是 由 实验 发 现 而 非 理论 引导 的 工程 科学 领域 。 只 有 当 人 硬件 条 件 允 许 尝 试 新 想法 , 或 
者 是 更 为 常见 的 放大 旧 想 法 的 实验 规模 时 , 才 有 可 能 实现 算法 上 的 单 新 。 对 计算 机 视觉 和 语音 识 
别 中 应 用 的 典型 的 深度 学 习 模 型 而 言 ， 其 所 需要 的 算 力 超出 了 笔记 本 计算 机 算 力 几 个 数量 级 。 

在 21 志 纪 前 十 年 里 ,为 了 满足 画面 日 益 副 真 的 电子 游戏 在 图 像 处 理 上 的 需求 ， 英 伟 达 
( NVIDIA ) 和 超 威 半导体 ( AMD ) 等 公司 投资 了 数 十 亿美 元 来 开发 高 速 的 、 适 用 于 并 行 计算 的 
必 片 (GPU )， 这 些 芯 片 其 实 是 廉价 且 功 能 单一 的 、 专 用 于 在 屏幕 上 实时 泻 染 复杂 三 维 图 像 的 超 
级 计算 机 。2007 年 , NVIDIA 发 布 了 一 种 专 为 NVIDIAGPU 设计 的 通用 编程 接口 : CUDA ( Compute 
Unified Device Architecture， 计 算 统 一 设备 体系 结构 )。 这 标志 看 GPU 领域 的 投资 真正 开始 推动 
科学 研究 社区 的 发 展 。 从 物理 建 模 领 域 开始 ， 小 规模 的 GPU 集群 逐渐 开始 在 适合 高 度 并 行 计 算 
的 应 用 程序 中 取代 传统 的 大 规模 CPU 集群 。 深 上 度 神经 网 络 所 涉及 的 运算 主要 由 和 窍 阵 乘 法 和 和 矩阵 
加 法 构成 ， 因 此 它们 也 具有 高 度 的 并 行 性 。 
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在 2011 年 前 后 ,一 些 研究 者 开始 编写 神经 网 络 的 CUDA 实现 ,Dan Ciresan 和 AlexKrizhevsky 
就 是 其 中 最 早 的 一 批 。 当 下 , 在 训练 深度 神经 网 络 时 ,高端 GPU 可 以 提供 的 并 行 算 力 是 一 般 CPU 
的 上 百倍 。 正 是 依靠 现代 GPU 的 惊人 算 力 ， 很 多 顶尖 的 深度 神经 网 络 的 训练 才 成 为 可 能 。 


2. 数据 和 基准 

如 果 说 硬件 和 算法 之 于 深度 学 习 音 命 就 如 同 蒸汽 机 之 于 工业 革命 , 那么 数据 就 相当 于 “ 北 汽 
机 所 烧 的 煤 ”。 数 据 是 这 些 智能 机 融 的 能 量 来 源 ， 没 有 了 它 ， 一 切 缘 无 可 能 。 谈 及 数据 ， 在 过 去 
20 年 ， 除 了 存储 硬件 呈 指 数 级 发 展 〈 膛 循 摩尔 定律 )， 根 本 变化 是 互联 网 的 崛起 。 互 联网 让 机 天 
学 习 收 集 和 分 发 大 量 的 数据 集成 为 可 能 ， 如 果 没 有 互联 网 ,现在 大 型 企业 所 用 的 图 像 数 据 集 、 视 
频数 据 集 以 及 目 然 语言 数据 集 都 不 可 能 存在 。 例 如 ， 用 户 在 Flickr 平 台 生 成 的 种 水 印 的 图 像 就 是 
计算 机 视觉 人 研究 的 数据 宝库 ，YouTube 平 台 上 的 视频 也 是 如 此 。 维 基 百 科 则 是 目 然 语言 处 理 的 一 
个 关键 数据 集 来 源 。 

如 果 必 须 说 哪个 数据 集 是 深度 学 习 岂 起 的 关键 助力 ， 那 么 一 定 是 ImageNet 了 。 这 个 大 型 视 
党 数据 库 包 含 约 1419 万 个 图 像 , 每 张 都 有 针对 1000 种 图 像 类 型 的 手动 注释 。ImageNet 的 特殊 之 
处 不 仅 在 于 其 数据 庞大 ， 还 在 于 和 它 相 关 的 年 度 竞 赛 "。 正 如 ImageNet 和 Kaggle 自 2010 年 来 所 
展示 的 那样 , 公开 的 欧 喝 是 激励 全 究 者 和 工程 师 开 拓 领 域 疆界 的 绝 佳 方式 。 它们 让 人 研究 者 苑 相 超 
越 一 个 共同 的 基准 ， 从 而 极 大 地 促进 近来 次 度 学 习 的 崛起 。 


3. 算法 上 的 革新 

除了 硬件 和 数据 上 的 进步 ， 我 们 还 缺少 训练 次 度 神 经 网 络 〈 具 有 非常 多 的 层 ) 的 可 徘 方 法 ， 
直到 21 世纪 前 十 年 后 期 ， 这 种 现象 才 有 所 好 转 。 结 果 就 是 : 当时 的 神经 网 络 仍 非常 浅 ， 仅 使 用 
一 到 两 层 表示 。 因 此 ， 它 们 无 法 和 其 他 更 精细 的 浅 层 方法 苋 争 ， 例 如 SVM 和 随机 和 森 林 。 问 题 的 
关键 在 于 穿越 多 层 的 梯度 传播 , 这 是 因为 随 着 所 经 过 层 数 的 增加 ,用 于 训练 神经 网 络 的 反馈 信号 
会 逐渐 消失 。 

这 一 点 在 2009 一 2010 年 发 生 了 改变 ， 其 中 的 几 个 简单 但 意义 重大 的 算法 革新 ， 让 梯度 传播 
变 得 更 为 有 效 。 

口 更 好 的 神经 网 络 层 激活 函数 (activation function) ， 例 如 线性 整流 函数 (简称 ReLU )。 

口 更 好 的 权重 初始 化 方案 ( weight-initialization scheme )， 例 如 Glorot 初始 化 方法 。 

口 更 好 的 优化 方案 ( optimization scheme )， 例 如 RMSProp 和 ADAM 优化 前 。 

只 有 当 这 些 改 进 可 以 训练 10 层 或 更 多 层 的 模型 时 ， 冻 度 学 习 才 会 大 放 异 彩 。 终 于 ， 
2014 一 2016 年 出 现 了 一 些 更 为 高 级 的 帮助 梯度 传播 的 方法 , 包括 批 标 准 化 ( batch normalization )、 
残 差 连接 ( residual connection ) 和 次 度 可 分 离 郑 积 ( depthwise separable convolution )。 现 在 ， 我 
们 已 经 可 以 从 头 训练 有 上 千 层 的 次 度 神 经 网 络 模型 了 。 
























































GD ImageNet 大 规模 视觉 识别 挑战 赛 (ILSVRC )。 一 一 译 者 注 
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1.2 ”为 何 要 结合 JavaScript 和 机 器 学 习 


与 AI 和 数据 科学 的 其 他 分 文 一 样 ， 机 融 学 习 通 第 使 用 传统 的 后 端 编程 霹 言 来 实现 ， 比 如 
Python 和 R， 这 些 编程 语言 在 Web 浏览 器 外 部 的 服务 需 或 工作 站 上 运行 "。 通 常 普通 浏览 器 页 面 
并 不 耳 接 具备 训练 深度 神经 网 络 所 需 的 多 核 计算 和 GPU 加 速 计算 能 力 ， 男 外 对 于 训练 这 样 的 模 
型 ， 有 时 候 所 需 的 海量 数据 从 后 端 获取 更 为 方便 ”， 因 此 这 种 现象 很 正常 。 直 到 最 近 ， 很 多 人 仍 
只 是 把 “实现 JavaScript 深度 学 习 ” 看 作 新 奇 的 想法 。 这 一 贡 将 诠释 为 什么 对 很 多 应 用 程序 而 言 ， 
在 浏览 大 环境 中 用 JavaScript 进行 深度 学 习 是 一 个 明智 之 举 ， 同 时 还 会 介绍 为 什么 结合 座 度 学 习 
和 Web 浏览 如 可 以 创造 很 多 独特 的 机 会 (特别 是 通过 TensorFlow.js )。 

一 旦 某 个 机 带 学 习 模 型 训练 完毕 ,必须 将 其 部 秋 到 某 种 生产 环境 中 , 这 样 才 能 开始 基于 真实 
数据 进行 预测 ， 比 如 对 图 像 和 文本 进行 分 类 、 检 测 音频 或 视频 中 发 生 的 事件 ， 等 等 。 如 采 没 有 部 
黎 环 市 ， 训 练 模 型 只 是 在 浪费 算 力 。 将 Web 前 端 作为 部 署 的 “ 茶 种 生产 环境 ”通常 是 人 们 所 预 
期 的 ， 甚 至 可 以 说 是 必 不 可 少 的 。 你 可 能 已 经 对 Web 浏览 妖 的 重要 性 深 有 体会 ， 在 台式 计算 机 
和 笔记 本 计算 机 上 ，Web 浏览 并 是 当今 用 户 获 取 互 联网 内 容 和 服务 绝对 主流 的 方式 , 也 是 用 户 在 
使 用 期 间 花 费时 间 最 多 的 地 方 ， 其 使 用 频率 远 超 第 二 名 。 同 时 ， 它 还 是 用 户 进行 工作 、 社 交 和 娱 
乐 的 主要 阵地 , 其 中 运行 的 多 种 多 样 的 应 用 程序 , 为 在 客户 端 上 进行 机 融 学 习 提 供 了 丰富 的 机 会 。 
对 移动 问 的 前 端 而 言 ,无 论 是 在 用 户 参 与 度 上 , 还 是 在 用 户 的 使 用 时 间 上 ，Web 浏览 需 都 落后 于 
原生 移动 应 用 程序 。 人 尽管 如 此 ， 但 移动 端 Web 浏览 姻 仍 是 不 可 小 虎 的 力量 ， 它们 有 更 广泛 的 受 
众 , 可 以 随时 使 用 , 并 且 有 更 快 的 开发 周期 ”。 事实 上 , 正 是 因为 Web 浏览 器 的 灵活 性 和 易 用 性 ， 
很 多 移动 应 用 程序 会 为 某 些 内 容 类 型 通信 启用 了 JavaScript 的 Web 页面 ， 包 括 推 符 和 脸 书 。 

下 因为 这 种 广泛 的 影响 力 ， 模 型 所 需 的 数据 都 可 以 从 浏览 如 中 获得 ， 所 以 Web 浏览 硕 成 为 
部 普 次 度 学 习 模 型 的 合理 选择 。 但 浏览 顶 可 以 获得 什么 类 型 的 数据 呢 ? 答案 是 “ 太 多 了 ”! 帝 度 
学 习 较 为 流行 的 应 用 程序 都 可 以 当 作 示例 ， 包 括 分 类 和 检测 图 像 以 及 视频 中 的 物体 、 转 录音 频 、 
翻译 自然 语言 和 分 析 文 本 内 容 。 可 以 说 ，Web 浏览 右 拥 有 展示 文本 数据 、 图 像 数据 、 音 频数 据 和 
视频 数据 的 最 全 面 的 技术 和 API。 因 此 , 通过 TensorFlow.js 和 一 些 价 单 的 转换 流程 等 ,可 以 直接 
在 浏览 右 中 使 用 强大 的 机 玫 学 习 模 型 。 至 于 在 浏览 旨 中 部 署 深 度 学 习 模 型 ， 本 书后 面 的 章 记 中 提 
供 了 很 多 具体 示例 。 例 如 ， 在 用 网 络 摄像 涉 捕 获 了 一 些 图 像 后 ， 可 以 用 TensorFlow.js 运行 
MobileNet 模型 来 标记 图 像 中 的 物体 ， 运 行 YOLO2 模型 将 检测 到 的 物体 用 方 框 进行 标注 ， 运 行 
Lipnet 来 读 取 层 语 ， 也 可 以 运行 CNN-LSTM 模型 为 图 像 添加 字幕 。 

如 有 果 用 浏览 各 的 Web Audio API 欣 制 麦克 风 捕 获 音频 ，TensorFlow.js 可 以 通过 运行 模型 ， 对 
语音 进行 实时 识别 。 还 有 很 多 关于 文本 数据 的 优秀 的 应 用 程序 ， 比 如 对 影评 进行 情感 分 析 , 判断 
是 否 为 正面 评价 (第 9 章 )。 除 了 这 些 数 据 形 式 ，Web 浏览 硕 还 可 以 从 移动 设备 上 获取 一 系列 传 
感 需 数据 ， 比 如 HIMLS 提供 了 API 来 访问 地 理 位 置 ( 包括 纬度 和 经 度 )、 运 动 信息 (设备 的 阴 













































































GD 参见 Srishti Deoras 发 表 的 文章 “Top 10 Programming Languages for Data Scientists to Learn in 2018”。 
Go 例如， 可 以 直接 从 近乎 无 限 大 的 原生 文件 系统 中 读 取 。 
@) 参见 Rishabh Borde 发 表 的 文章 “Internet Time Spend in Mobile Apps 2017-19: It’s 8x than Mobile Web”。 
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向 和 加 速度 ) 和 背景 光 (参见 Mobile HTMLS5 网 站 )。 如 果 将 这 些 传感器 数据 和 深度 学 习 还 有 其 [加 二 
他 一 些 数据 形式 结合 起 来 ， 它 们 可 以 使 很 多 优秀 的 新 应 用 程序 成 为 可 能 。 

基于 浏览 器 的 深度 学 习 应 用 程序 还 有 男 外 5 个 优势 : 更 少 的 服务 器 开销 、 更 低 的 推断 延迟 、 

保护 数据 隐私 、 即 时 GPU 加 速 和 随时 使 用 。 

口 服务 器 开销 通常 是 设计 和 伸缩 网 络 服务 时 的 一 个 重要 考量 。 通 常 ， 快 速 运行 深度 学 习 模 
型 所 需 的 算 力 是 相当 高 的 ， 这 使 GPU 加 速成 了 必 选 项 。 如 果 模 型 没有 在 客户 端 上 部 署 ， 
它们 就 需要 部 署 到 有 GPU 支持 的 机 器 上 , 比如 由 谷歌 云 平 台 或 亚马逊 Web 服务 ( Amazon 
Web Services ) 提供 的 配 有 CUDA GPU 的 虚拟 机 。 这 样 的 云端 GPU 机 需 通 浓 开 销 非常 大 ， 
即使 是 最 基本 款 的 GPU 机 大 ， 每 小 时 大 约 也 要 花费 0.5~1 美元 。 随 着 流量 的 增加 ， 在 云 
剖 运 行 GPU 机 顷 的 开销 会 越 来 越 大 ， 更 别 说 服务 融 端 在 可 扩展 性 和 额外 复杂 度 上 随 之 出 
现 的 挑战 了 。 如 果 将 模型 部 署 在 客户 端 上 ， 所 有 的 顾虑 都 会 迎刃而解 。 客 户 端 下 载 模型 
大 小 不 等 ， 通 常 为 几 兆 字 节 (MB )， 这 里 的 额外 延迟 可 以 通过 浏览 器 的 缓存 和 本 地 存储 
能 力 绥 解 (参见 12.3.1 节 )。 

口 更 低 的 推断 延迟 。 对 于 某 些 应 用 程序 类 型 ， 可 接 有 党 的 最 大 延迟 要 求 非 党 严格 ， 因 此 在 客 
户 端 上 运行 深度 学 习 模 型 成 为 必然 。 任 何 涉及 实时 音频 数据 、 图 像 数 据 和 视频 数据 的 应 
用 程序 都 可 以 归 为 这 个 范畴 。 如 果 图 像 的 每 一 帧 都 需要 传输 到 服务 需 端 进行 推断 ， 会 发 
生 什 么 情况 ? 假设 网 络 摄像 头 以 每 帧 400 像素 x400 像素 、 每 秒 10 帧 的 速率 捕捉 图 像 ， 图 
像 的 颜色 使 用 三 色 通 道 (RGB )， 每 个 颜色 通道 都 使 用 8 位 深度 。 即 使 采用 JPEG 压缩 ， 
每 一 张 图 片 的 大 小 也 至 少 有 150KB 左右 。 在 一 个 典型 的 有 300kbits 上 传 带 宽 的 移动 网 络 
中 ， 上 传 一 张 图 片 可 能 要 花费 500 毫秒 以 上 的 时 间 ， 这 所 导致 的 延迟 是 肉眼 可 见 的 ， 而 
这 对 于 某 些 应 用 程序 ( 比如 游戏 ) 是 不 可 接受 的 。 这 一 计算 并 没有 考虑 网 络 连接 的 波动 
情况 (网络 连 接 有 可 能 中 断 )。 用 于 下 载 推断 结果 的 额外 时 间 , 还 有 大 量 的 移动 数据 用 量 ， 
都 可 能 终止 这 种 情境 下 的 服务 器 端 推 断 。 
客户 端 推断 会 将 数据 和 计算 都 放 在 设备 上 ， 这 样 解决 了 潜在 的 延迟 和 网 络 连 接 稳 定性 方 
面 的 问题 。 在 客户 端 上 运行 模型 是 实时 机 器 学 习 应 用 程序 的 唯一 选择 ， 比 如 标记 物体 和 
探测 网 络 摄像 头 图 像 中 的 动作 。 即 使 对 于 那些 没有 延迟 要 求 的 应 用 程序 ， 降 低 模型 推断 
延迟 也 可 以 增强 应 用 程序 的 响应 速度 ， 从 而 提升 用 户 体 验 。 

口 保护 数据 隐私 。 将 训练 数据 和 推断 数据 放 在 客户 端的 男 一 个 好 处 是 保护 了 用 户 的 隐私 。 
数据 隐私 在 当下 的 意义 已 经 越 来 越 重 要 。 对 某 些 类 型 的 应 用 程序 而 言 ， 数 据 隐私 是 一 个 
强制 要 求 ， 比 如 涉及 健康 和 医疗 数据 的 应 用 程序 。 假 设 有 一 个 “皮肤 病 诊断 助手 ”应 用 
程序 ， 它 必须 从 网 络 摄像 头 收集 关于 病人 皮肤 的 图 像 ， 然 后 利用 深度 学 习 生 成 可 能 的 皮 
肤 情 况 诊断 。 很 多 国家 及 地 区 的 健康 信息 隐私 法 规 禁 止 在 一 个 中 心 化 的 服务 器 上 传输 这 
样 的 图 像 进行 推 新 。 但 是 通过 在 浏览 需 中 使 用 模型 进行 推 亲 ， 数 据 根 本 无 须 离 开 用 户 的 
手机 ， 其 至 无 须 存储 下 来 ， 这 样 就 确保 了 用 户 健 康 数据 的 隐私 。 
现在 考虑 另外 一 个 基于 浏览 器 的 应 用 程序 场景 ,假设 这 个 应 用 程序 要 使 用 深度 学 习 来 为 
用 户 在 其 中 所 创造 的 文本 内 容 提 供 改 进 意见 。 有 些 用 户 可 能 会 写 一 些 敏 感 内 容 ， 比 如 法 
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律 文件 ， 那 么 用 户 肯 定 不 布 望 相关 数据 通过 公共 网 络 传输 到 一 个 远程 服务 负 上 。 这 时 使 
用 浏览 需 和 JavaScript 在 客户 端 运 行 模型 就 能 有 将 地 打消 这 种 顾虑 。 

口 即时 GPU 加 速 。 除了 有 数据 这 一 前 提 条 件 , 在 Web 浏览 妖 中 运行 机 右 学 习 模 型 的 男 一 个 

前 提 条 件 是 通过 GPU 加 速 获得 足够 的 算 力 。 正 如 之 前 提 到 的 ,很 多 前 沿 的 深度 学 习 模 型 
计算 强度 非常 高 ， 因 此 使 用 GPU 上 的 并 行 计算 进行 加 速成 了 一 个 必 选 项 ， 当 然 ， 除 非 你 
愿意 让 用 户 为 一 个 推断 结果 等 待 数 分 钟 ， 但 这 在 现实 应 用 程序 中 几乎 不 可 能 发 生 。 坪 运 
的 是 ， 现 代 Web 浏览 器 都 备 有 WebGL API， 它 的 设计 初衷 是 加 速 二 维 图 像 和 三 维 图 像 的 
泻 染 , 但 也 可 以 应 用 到 加 速 神经 网 络 所 需 的 并 行 计 算 中 。TensorFlow.js 的 作者 已 经 将 基于 
WebGL 的 深度 学 习 加 速 功能 融入 到 了 一 个 专用 库 中 。 只 需要 一 行 JavaScript 的 import 
代码 ， 就 可 以 获取 GPU 加 速 。 
基于 WebGL 的 神经 网 络 加 速 可 能 不 能 完全 和 基于 原生 、 特 定 的 GPU 加 速 * 相 提 并 论 , 但 
是 它 能 将 神经 网 络 的 速度 提升 几 个 数量 级 , 并 且 计 像 PoseNet 从 图 像 中 提取 人 体 姿态 这 样 
的 实时 推 膝 成 为 可 能 。 
如 有 果 用 预 训练 模型 进行 推 呆 的 开销 非常 大 ， 那 么 在 该 模型 上 进行 训练 或 迁移 学 习 就 更 是 
如 此 了 。 训 练 或 迁移 学 习 预 训练 模型 开局 了 一 系列 令 人 兴奋 的 应 用 程序 ， 例 如 深度 学 习 
模型 的 个 性 化 定制 、 深 度 学 习 的 前 端 可 视 化 以 及 联邦 学 习 ( federated learning )“。 借助 启 
用 WebGL 加 速 的 TensorFlow.js, 可 以 在 Web 浏览 硕 中 实现 以 足够 快 的 速度 训练 或 微调 神 
经 网 络 。 

口 随时 使 用 。 一 般 来 说 ， 在 浏览 各 中 运行 的 应 用 程序 有 “无 须 安 疙 ”的 天 然 优 势 ， 只 和 需 输 
和 人 URL 或 点 击 某 个 链接 就 能 获取 应 用 程序 。 这 样 就 避免 了 可 能 的 烦琐 又 易 出 错 的 安放 步 
又 ， 以 及 在 安装 新 软件 时 游 在 的 权限 控制 风险 。 对 TensorFlow.js 所 提供 的 基于 WebGL 
的 神经 网 络 加 速 来 说 ， 在 用 浏览 锅 进 行 机 融和 学习 的 霹 境 下 ， 并 不 需要 特 珠 的 显卡 或 为 这 
些 显 卡 安装 驱动 。 后 者 通常 也 不 是 一 个 简单 的 过 程 。 绝 大 多 数 相对 较 新 的 台式 计算 机 、 
笔记 本 计算 机 和 移动 设备 安装 了 适用 于 浏览 妖 和 WebGL 的 显卡 。 这 些 设 备 只 要 北 有 和 
TensorFlow.js 莱 容 的 Web 浏览 各 (这 很 容易 实现 )， 无 须 任 何人 额外 设置 ， 就 可 以 运行 
WebGL 加 速 的 神经 网 络 。 对 于 多 访问 性 极其 重要 的 场景 ， 例 如 深度 学 习 教 育 ， 这 一 特性 
尤其 旋 人 。 


















































言 息 栏 1-2 ”使 用 GPU 和 WebGL 加 速 计算 
训练 机 器 学 习 模 型 和 使 用 模型 进行 推断 需要 大 量 的 数学 运算 。 例 如 , 神经 网 络 中 广泛 使 用 
的 密集 层 就 需要 将 一 个 大 答 阵 和 一 个 向 量 相 乘 ， 然 后 让 结果 加 上 另 一 个 向 量 。 像 这 样 的 常用 运 
算 通 常 涉及 上 千 次 至 上 百 万 次 浮 点 运算 , 这 类 运算 有 一 个 很 重要 的 特性 ， 那 就 是 很 多 时 候 它 们 
i 





@ 比如 NVIDIA CUDA 以 及 TensorFlow 和 PyTorch 等 Python 深度 学 习 库 所 使 用 的 CuDNN。 
@) 联邦 学 习 就 是 在 不 同 设备 上 训练 同一 模型 ， 然 后 汇总 训练 结果 ， 从 而 获得 一 个 不 错 的 模型 。 
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举 个 例子 ， 两 个 向 量 的 加 法 可 以 拆 分 成 很 多 更 小 的 运算 ， 比 如 两 个 数字 相 加 。 
运算 互 不 依赖 。 例 如 计算 两 个 向 量 中 索引 1 上 元 素 的 和 , 无须 提前 知道 索引 0 上 元 素 的 和 。 
此 ， 无 论 这 些 向 量 有 多 大 ， 这 些 更 小 的 运算 都 可 以 同时 进行 ， 而 不 是 逐个 地 计算 。 

串 行 计算 又 叫 作 SISD， 并 行 计算 则 叫 作 SIMD。 前 者 即 单 指 令 流 单数 据 流 ， 比 如 用 CPU 
实现 的 简单 向 量 加 法 ; 后 者 即 单 指令 流 多 数据 流 ， 比 如 用 GPU 实现 的 并 行 向 量 加 法 。 同 样 进 
行 单 次 运算 ，CPU 所 花 的 时 间 通 常 少 于 GPU 所 花 的 时 间 ; 但 是 从 计算 大 量 数据 时 所 花 的 总 时 
间 来 看 ,GPU 的 SIMD 性 能 则 要 优 于 CPU 的 SISD。 一 个 深度 神经 网 络 可 能 包含 上 百 万 个 参数 ， 
对 于 给 定 的 输入 ， 可 能 需要 进行 至 少数 十 亿 次 元 素 与 逐 元 素 的 数学 运算 。 从 这 个 角度 来 看 ， 
GPU 擅长 的 并 行 计 算 可 以 说 是 大 放 措 彩 。 


任务 : 将 两 个 向 量 的 每 个 对 应 元 素 依次 相 加 


CPU 的 计算 方式 





WebGL 加 速 利用 GPU 的 并 行 计算 实现 比 CPU 更 快 的 回 量 计算 


准确 地 说 ， 现 代 CPU 也 可 以 进行 一 定 程度 的 SIMD 运算 ， 但 相 比 之 下 ，GPU 拥有 更 多 的 
计算 单元 ,几乎 是 前 者 的 数 百 到 数 千 倍 , 并 且 GPU 可 以 在 很 多 输入 数据 切片 上 同时 运行 指令 。 
向 量 加 法 是 相对 简单 的 SIMD 任务 , 其 中 每 一 步 计 算 只 涉及 一 个 索引 ,并 且 每 个 索引 对 应 的 计 
算 结 果 是 相互 独立 的 。 机 器 学 习 中 其 他 常见 的 SIMD 任务 就 复杂 得 多 了 。 比 如 在 矩阵 乘法 中 ， 
每 一 步 计算 会 用 到 多 个 索引 上 的 数据 , 并 且 这 些 索 引 之 间 互 相依 赖 。 尽管 如 此 ,但 通过 并 行 计 


Ze 


算 进行 加 速 的 基本 原理 是 一 样 的 。 
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还 有 一 点 值得 注意 ， 那 就 是 GPU 设计 的 初衷 并 不 是 加 速 神经 网 络 。 这 一 点 也 反映 在 它 的 
名 字 上 ， 即 图 形 处 理 单元 。GPU 的 主要 目的 是 处 理 二 维 图 像 和 三 维 图 像 。 在 很 多 涉及 图 像 演 
染 的 应 用 程序 中 ,比如 三 维 游戏 ,以 最 快 的 速度 处 理 图 像 非常 重要 。 只 有 这 样 ， 屏 幕 上 图 像 的 
更 新 频率 才能 达到 流畅 的 游戏 体验 所 需 的 高 帧 率 ， 这 也 是 GPU 发 明 者 利用 SIMD 并 行 计算 的 
初衷 。 但 是 ，GPU 擅长 的 并 行 计算 恰好 满足 了 机 器 学 习 的 需求 ， 这 实 属意 外 的 惊喜 。 

对 于 TensorFlow.js 用 来 进行 GPU 加 速 的 WebGL 库 ， 其 设计 初 圳 是 在 Web 浏览 器 中 泻 染 
三 维 物体 的 纹理 (表面 图 入 ) 一 本质 上 就 是 数字 答 阵 ! 因此 ， 可 以 把 这 些 数字 当 作 和 神经 网 络 
的 权重 或 激活 值 ， 然 后 复 用 WebGL 的 SIMD 纹理 运算 ， 让 它们 来 运行 神经 网 络 。 这 正 是 
TensorFlow.js 在 浏览 器 中 加 速 神 经 网 络 的 方式 。 








从 了 上 上 述 优势 ， 基 于 机 带 学 习 的 Web 应 用 程序 和 不 涉及 机 需 学 习 的 普通 Web 应 用 程序 的 优 
势 是 共通 的 。 

口 和 原生 应 用 程序 开发 不 同 , 用 TensorFlow.js 编写 的 JavaScript 应 用 程序 可 以 在 各 种 生态 的 
设备 上 运行 ， 包括 Mac、Windows 和 Linux 的 蝎 面 端 系统 以 及 安 时 和 iOS 的 移动 端 系 统 。 

口 得 葵 于 它 高 度 优 化 的 ( 二 维和 三 维 ) 图 形 处 理 能 力 ，Web 浏览 硕 是 数据 可 视 化 和 互动 方 
面 最 丰富 旦 最 成 贺 的 环境 。 对 展示 神经 网 络 的 行为 和 内 部 构造 这 一 应 用 场景 而 言 ， 没 有 什 
么 能 出 浏览 需 其 在 。TensorFlow Playground 束 是 很 好 的 示例 (参见 TensorFlow Playground 
网 站 ), 它 是 一 个 非常 流行 的 Web 应 用 程序 , 可 以 通过 它 的 图 形 界 面 和 神经 网 络 互动 来 解 
决 分 类 问题 ， 还 可 以 用 它 微调 神经 网 络 的 结构 和 超 参 数 ， 然 后 观察 其 隐藏 层 和 输出 对 应 
的 变化 情况 ( 见 图 1-6 )。 如 果 你 还 没有 试 过 TensorFlow Playground， 强 烈 建议 你 试用 一 
下 。 许 多 人 表示 这 是 他 们 看 过 的 关于 神经 网 络 的 最 有 指导 意义 和 令 人 愉悦 的 教学 又 材 之 
一 。 事 实 上 ，TensorFlow Playground 是 TensorFlow.js 的 重要 先驱 ， 因 此 ， 相 比 前 者 ,后 者 
的 能 力 范 围 要 大 得 多 , 并 日 有 更 深度 的 性 能 优化 。 此 外 ，TensorFlow.js 还 内 置 了 专用 于 可 
视 化 深度 学 习 模 型 的 模块 ( 参见 第 7 章 )。 无 论 是 想 构 建 像 TensorFlow Playground 这 样 基 
本 的 教育 性 应 用 程序 ， 还 是 想 以 引人入胜 的 直观 方式 展示 前 沿 深 度 学 习 研 究 ， 
TensorFlow.js 都 可 以 帮助 你 天 目标 迈进 一 大 步 〈 人 参见 上 分 布 随机 邻 域 般 入 算法 的 实时 可 视 
化 示例 ， 即 1SNE” )。 
























































QD 参见 Nicola Pezzotti 在 Google AI Blog 发 表 的 文章 “Realtime 4SNE Visualizations with TensorFlow.js”。 
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图 1-6 TensorFlow Playground 网 站 截图 。 它 是 一 个 非常 流行 的 Web 应 用 程序 , 由 Daniel Smilkov 
及 其 同事 共同 制作 ， 主 要 用 于 教授 神经 网 络 的 工作 原理 ， 同 时 也 是 TensorFlow.js 项 目的 
重要 先驱 


1.2.1 用 Node.js 进行 深度 学 习 


考虑 到 安全 问题 和 性 能 问题 ,Web 浏览 锅 在 设计 时 对 可 利用 的 资源 进行 了 限制 , 具体 体现 在 
有 限 的 内 存 和 文件 系统 配额 方面 。 但 对 训练 涉及 大 量 数据 的 大 型 机 天 学 习 模 型 来 说 , 这 章 味 看 济 
览 锅 并 不 是 一 个 理想 的 环境 。 当 然 ， 对 于 很 多 其 他 类 型 的 推 上 新 ， 比 如 无 须 消耗 大 量 资源 的 小 规模 
模型 训练 和 迁移 学 习 任 务 ，Web 浏览 厅 仍 然 非常 适用 。 但 是 ， 当 Node.js 出 现 后 ，JavaScript 的 地 
位 就 不 可 同日 而 语 了 。Node.js 让 JavaScript 脱离 了 Web 浏览 器 的 榨 森 , 使 它 能 够 最 大 限度 地 利用 
系统 的 原生 资源 ， 比 如 内 存 和 文件 系统 。TensorFlow.js 包含 了 一 个 Node.js 版 本 ， 叫 作 tfjs-node， 
可 以 与 C++ 和 CUDA 代码 编译 而 成 的 TensorFlow 库 直 接 对 接 ， 这 样 TensorFlow.js 用 户 也 能 够 受 
益 于 Python 版 TensorFlow 所 使 用 的 CPU 并 行 计算 和 GPU 核子 数 计算 。 现 实数 据 表明 ,tfjs-node 
中 模型 的 训练 速度 和 Python 中 Keras 的 运行 速度 是 相当 的 。 因 此 ，tfjs-node 也 可 以 用 于 训练 涉及 
大 量 数据 的 大 型 机 需 学 习 模 型 。 本 书 会 介绍 使 用 tfjs-node 来 训练 超出 浏览 右 能 力 极限 的 大 型 模型 
的 一 些 示 例 ， 例 如 第 $ 曹 的 口令 识别 锅 、 第 9 章 的 文本 情感 分 析 关 。 

但 是 在 训练 机 需 尝 习 模 型 时 , 为 什么 不 选用 更 为 成 熟 的 Python 环境 而 是 选用 Nodejs 呢 ? 这 主 
要 有 两 个 原因 : 第 一 ，Nodejjs 的 性 能 更 好 ; 第 二 ，Node.js 和 现 有 的 技术 栈 与 开发 者 技能 更 匹配 。 

首先 ， 就 性 能 而 言 ， 目 前 行业 顶尖 的 JavaScript 解释 项 ， 如 Node.js 使 用 的 V8 引擎， 能 够 利 
用 即时 编译 技术 达到 超过 Python 的 性 能 。 也 正 因 如 此 ， 只 要 模型 规模 足够 小 ， 其 中 编程 语言 的 
解释 性 能 可 以 决定 训练 速度 ， 这 时 用 ts-node 训练 模型 通常 比 用 Keras ( Python ) 更 快 。 




















20 第 1 章 深度 学 习 和 JavaScript 


其 次 ，Node.js 本 号 也 是 一 个 非常 流行 的 构建 服务 希 端 应 用 程序 的 生态 。 如 采 你 当前 的 后 端 
就 是 用 Node.js 编写 的 ,并 且 想 将 机 器 学 习 也 喜 括 进 你 的 技术 栈 中 ,那么 相 比 Python ,使 用 芭 s-node 
通 第 是 更 好 的 选择 。 通 过 前 后 端 使 用 同一 种 语言 ， 可 以 特 接 复 用 代码 库 中 的 大 部 分 代码 ,包括 那 
些 用 来 加 载 和 格式 化 数据 的 部 分 ， 从 而 更 快 地 构建 模型 训练 的 整个 流程 。 此 外 ， 整 个 过 程 并 没有 
引入 新 的 语言 ， 这 样 可 以 控制 开发 的 复杂 度 和 成 本 ， 也 可 以 避免 专门 雇用 Python 程序 员 所 耗费 
的 精力 和 开销 。 

最 后 ，| 除 了 仪 支持 浏览 大 API 或 仅 支 持 Node.js API 的 与 数据 相关 的 代码 ， 用 TensorFlow.js 
编写 的 机 带 学 习 代 人 码 可 以 同时 在 浏览 器 环境 和 Node.js 端 运行 。 本 书 中 绝 大 部 分 示例 程序 可 以 同 
时 在 两 种 环境 中 运行 。 另 外 , 本 书 将 那些 没有 环境 依赖 并 与 机 融 学 习 百 接 相 关 的 核心 代码 ， 同 那 
些 有 环境 依赖 的 数据 获取 和 UI 代码 进行 了 分 离 。 这 样 有 一 个 额外 的 优势 ， 那 就 是 只 和 需 学 习 一 个 
库 ， 丈 能 同时 学 会 如 何在 服务 各 病 和 客户 并 进 行 深 上 度 学 习 。 

















1.2.2” ”JavaScript 生态 系统 


在 评估 JavaScript 是 否 适 合 深 度 学 习 这 样 的 应 用 程序 时 ， 一 定 不 能 忽视 JavaScript 背后 极其 
强大 的 生态 。 多 年 来 编程 语言 不 断 地 发 展 更 新 ， 但 最 受 欢迎 的 一 直 是 JavaScript。 在 GitHub 上 ， 
无 论 是 相关 代码 仓库 的 总 量 ， 还 是 提交 代码 的 活跃 度 ， 痢 可 以 证 明 这 一 点 (参见 GitHut 网 站 )。 
npm 是 一 种 JavaScript 包 管 理 需 , 截至 2018 年 7 月 , 其 中 软件 包 的 数量 已 经 高 达 60 万 , 比 Python 
的 包 管 理 侨 PyPi 上 的 数量 高 出 不 止 4 倍 (参见 Module Counts 网 站 )。 尽 管 Python 和 及 在 机 需 学 
习 和 数据 科学 方面 有 更 为 完善 的 社区 ， 但 是 JavaScript 社区 也 在 积极 地 为 构建 基于 JavaScript 的 
机 妖 学 习 流 程 而 努力 。 

想 从 云 存储 和 数据 库 接 入 数据 吗 ? 谷歌 云 平 台 和 亚马逊 Web 服务 都 提供 了 Nodejs 的 API。 
当下 最 流行 的 数据 库 系统 也 提供 了 对 Nodejjs 驱动 的 官方 文 持 ,比如 MongoDB 和 RethinkDB。 想 
要 用 JavaScript 来 整理 数据 吗 ? 如 果 想 ， 那 么 可 以 阅读 Ashley Davis 所 车 的 Data Wrangling with 
JavaScript。 想 要 实现 数据 可 视 化 吗 ? JavaScript 社 区 拥有 一 些 成 熟 且 强大 的 库 , 例如 d3.js、vega.js 
和 plotlyjs 等 ， 它 们 在 很 多 方面 远 超 Python 可 视 化 库 。 数 据 准 备 就 绪 之 后 ， 就 要 展开 介绍 本 书 的 
主题 了 ， 即 TensorFlow.js。 它 将 帮助 你 完成 从 创建 、 训 练 到 执行 深度 学 习 模型 的 全 流程 ， 当 然 ， 
还 包括 如 何 保 存 、 读 取 和 可 视 化 这 些 模 型 。 

最 后 ，JavaScript 生态 圈 还 在 持续 不 断 地 瑚 令 人 兴奋 的 新 领域 和 新 方 同 演进 ， 其 影响 力 已 经 
从 Web 浏览 硕 和 Node.js 后 端 环 境 这 些 传统 临 项 ， 延 伸 到 了 蝎 面 端 应 用 程序 ( 比如 Electron ) 和 
原生 移动 端 应 用 程序 ( 比如 React Native 和 Ionic )。 在 开发 用 户 界 面 和 应 用 程序 时 ， 使 用 这 些 跨 
平台 框架 通常 比 使 用 各 个 平台 专门 的 开发 工具 便捷 得 多 。 因 此 , 在 问 各 个 主流 计算 平台 推广 深度 
学 习 方 面 ，JavaScript 是 很 有 潜力 的 编程 语言 。 表 1-2 中 总 结 了 将 JavaScript 和 深度 学 习 相 结合 的 
主要 优势 。 
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表 1-2 用 JavaScript 进行 深度 学 习 的 优势 概览 
优势 类 别 具体 优势 
所 有 客户 端 共通 的 优势 ”。 数据 本 地 化 可 以 减 小 推 亲 和 训练 延迟 
。 能 人 够 在 客户 端 离线 时 运行 模型 
。 隐私 保护 ( 数据 不 会 离开 浏览 器 ) 
。 减少 服务 如 开 销 
。 简 化 部 署 所 需 的 技术 栈 
Web 浏览 器 环境 相关 的 ”。 丰 宦 的 、 可 用 于 推断 和 训练 的 数据 类 型 ， 如 HTMLS5 视频 、 音 频 和 传 感 顺 API 等 
优势 。 无须 安装 ， 从 而 得 到 更 佳 的 用 户 体 验 
。 无 须 安装 ， 即 可 利用 WebGL API 在 多 数 GPU 上 进行 并 行 计 算 
。 跨 平台 文 持 
。 可视化 和 交互 的 理想 环境 
。 客 户 端 本 质 上 是 各 种 信息 的 集散 地 ， 因 此 可 以 直接 获取 不 同 来 源 的 机 需 学 习 数 据 与 资源 
JavaScript 相关 的 优势 。 从 各 方面 来 讲 ，JavaScript 都 是 最 流行 的 开源 编程 语言 ， 因 此 它 有 相当 高 的 热度 和 丰富 的 
人 才 储 备 
。JavaScript 有 一 个 生机 过 动 的 生态 圈 ， 并 且 有 大 量 面 同 客 户 问 和 服务 器 端的 应 用 程序 
。 通 过 Node.js， 应 用 程序 可 以 脱离 浏览 各 的 资源 限制 在 服务 器 端 运 行 
e。JavaScript 可 以 通过 V8 引擎 实现 高 速 运行 
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工 欲 善 其 事 ， 必 先 利 其 器 。 在 开始 用 JavaScript 进行 深度 学 习 前 ， 应 该 先 选择 一 个 正确 的 工 
具 。 本 书 选 择 的 是 TensorFlow.js， 本 帮会 详细 介绍 TensorFlow.js 以 及 选择 它 的 原因 。 








1.3.1 TensorFlow、Keras 和 TensorFlow.js 的 前 世 今生 





TensorFlow.js 是 JavaScript 语言 的 次 度 学 习 库 。 可 以 看 到 ，TensorFlowjs 在 设计 上 是 与 
TensorFlow( Python 深度 学 习 框 架 ) 保持 一 致 旦 兼容 的 。 要 想 真 正 理解 TensorFlow.js， 需 要 先 简 
单 了 解 一 下 TensorFlow 的 发 展 历程 。 

TensorFlow 是 由 谷歌 从 事 深 度 学 习 的 团队 于 2015 年 11 月 创造 的 开源 资源 , 本 书 作 者 正 是 这 
个 团队 的 成 员 。 从 开源 至 今 ，TensorFlow 获得 了 巨大 的 成 功 , 在 谷歌 以 及 更 大 的 技术 社区 的 各 种 
工业 应 用 程序 和 研究 项 目 中 得 到 了 广泛 应 用 。 男 外 ， 数据 的 表示 又 叫 作 张 量 (tensor )， 它 会 “ 流 
经 ”( flow ) 模型 的 每 一 层 和 其 他 数据 人 处理 节点 ， 从 而 实现 机 絮 学 习 模 型 的 推 凯 和 训练 ， 因 此 
“TensorFlow” 这 一 名 字 暗 指 在 该 框架 下 编写 的 典型 程序 中 发 生 的 事情 。 

什么 是 张 量 ? 这 只 不 过 是 计算 机 科学 家 对 “多 维 矩 阵 ” 更 严谨 的 说 法 罢了 。 在 神经 网 络 和 深 
度 学 习 中 , 每 个 数据 和 计算 结果 都 会 用 张 量 表示 。 例如 , 一 个 灰 度 图 像 可 以 表示 为 一 个 二 维 数组 ， 
这 就 是 一 个 二 维 张 量 ; 同 理 , 彩色 图 像 多 出 了 一 个 维度 , 即 颜色 通道 , 因此 可 以 表示 为 三 维 张 量 。 
音频 、 视 频 、 文 本 以 及 其 他 任何 类 型 的 数据 都 可 以 用 张 量 来 表示 。 每 个 张 量 都 由 两 种 基本 属性 构 
成 : 数据 的 类 型 ( 比如 float32 或 int32 ) 和 形状 。 数 据 的 形状 摘 述 了 张 量 各 个 维度 的 尺寸 ， 
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例如 二 维 张 量 的 形状 可 能 是 [128，256] ， 而 三 维 张 量 的 形状 则 可 能 是 [10，20，128] 。 一 旦 数 
据 转 换 成 了 某 个 特定 的 数据 类 型 和 形状 , 无 论 它 最 初 的 意义 是 什么 , 都 可 以 输入 到 任何 与 其 类 型 
和 形状 匹配 的 层 。 因 此 ， 张 量 其 实 就 是 次 度 学 习 模 型 赖 以 沟通 的 声言 。 

但 为 什么 要 用 张 量 呢 ”上 一 市 曾 提 到 , 运行 次 度 神经 网 络 所 需 的 大 部 分 计算 通 癌 以 并 行 化 的 
方式 在 GPU 上 进行 ， 这 也 意味 着 要 对 很 多 数据 进行 相同 的 运算 。 张 量 能 够 将 数据 结构 化 ， 从 而 
实现 高 效 并 行 计算 。 如 采 将 形状 为 [128，128] 的 张 量 A 与 形状 为 [128，128] 的 张 量 B 相 加 ， 
显而易见 ， 这 将 产生 128x128 个 独立 的 加 法 运算 。 

那 TensorFlow 中 的 “fow” 又 指 什么 呢 ? 把 张 量 想 象 成 能 够 承载 数据 的 流体 就 明白 了 。 只 不 
过 在 TensorFlow 中 ， 张 量 流 过 的 是 图 ( graph )， 即 由 各 种 数学 运算 (布点 ) 互相 连接 而 成 的 数据 
结构 。 如 图 1-7 所 示 ， 这 些 市 点 可 以 看 作 神 经 网 络 中 连续 的 层 ， 每 一 个 市 点 都 将 张 量 作 为 输入 ， 
然后 产生 新 的 张 量 作为 输出 。 随 着 张 量 “ 流 经 ”TensorFlow 图 的 各 个 节点 ， 它 也 转换 成 不 同 的 形 
状 和 值 。 就 像 本 章 前 面 介绍 的 ， 这 实际 上 就 是 表示 的 转换 ， 也 正 是 神经 网 络 的 关键 。 利 用 
TensorFlow， 机 需 学 习 工 程 师 可 以 编写 各 种 不 同 的 神经 网 络 ， 包 括 从 浅 层 神经 网 络 到 有 相当 猴 度 
的 神经 网 络 ， 以 及 从 用 于 计算 机 视觉 的 convnet 到 用 于 处 理 序列 数据 的 循环 神经 网 络 。TensorFlow 
的 图 数据 结构 可 以 被 序列 化 ， 并 且 被 部 署 到 包括 大 型 机 和 手机 在 内 的 各 种 设备 上 。 


张 量 0 J I 预测 值 : 
张 量 3 


第 1 层 第 2 层 第 3 层 


图 1-7 TensorFlow 和 TensorFlow.js 中 的 常见 场景 一 一 张 量 “ 流 经 ”各 个 层 的 示意 网 






































TensorFlow 的 核心 部 分 在 设计 上 是 非常 通用 且 灵 活 的 : 运算 不 限于 神经 网 络 的 层 , 可 以 是 任 
意 定 义 明确 的 数学 函数 ， 比 如 像 张 量 加 法 和 张 量 乘法 这 样 发 生 在 神经 网 络 层 内 部 的 低 阶 数学 运 
算 。 这 样 一 来 ， 当 目 定 义 一 些 有 关 深 上 度 学 习 的 新 运算 时 , 这 度 学 习 工 程 师 和 人 研究 者 就 有 很 大 的 发 
年 空间 。 尽 管 如 此 , 但 是 对 很 大 一 部 分 深度 学 习 从 业者 而 言 ， 花费 精 力 来 摆弄 这 些 底 层 的 操作 并 
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不 值得 , 还 可 能 造成 更 胱 肿 、 更 易 出 错 的 代码 以 及 更 长 的 开发 周期 绝 大 多 数 深 度 学 习 工 程 师 只 
需 用 到 几 种 固定 的 层 类 型 *"， 几 乎 不 需要 再 创建 新 的 层 类 型 。 这 就 和 乐高 积木 的 原理 一 样 ， 乐 高 
积木 只 有 很 少 的 几 种 基础 方块 类 型 玩家 在 搭建 模型 时 无 须 思考 积木 的 制作 方法 。 虽然 搭建 乐高 
模型 可 以 市 来 无 数 可 能 的 组 合 和 无 穷 的 威力 ， 但 是 TensorFlow 的 低 阶 API 其 实 更 接近 培 乐 多 这 
样 的 彩 泥 玩具 。 当 然 ， 乐 高 积木 和 培 乐 多 彩 泥 都 可 以 构建 玩具 小 屋 ， 但 除非 对 小 屋 的 尺寸 、 形 状 、 
材质 或 原料 有 特殊 要 求 , 否则 使 用 乐高 来 搭 小 屋 一 般 更 快捷 、 更 方便 。 另 外 , 对 绝 大 多 数 人 而 言 ， 
用 积木 搭 的 小 屋 会 比 用 彩 泥 搭 的 小 屋 更 稳固 、 更 养眼 。 

在 TensorFlow 中 ， 与 乐高 积木 对 应 的 就 是 高 阶 API， 即 Keras”。Keras 提供 了 一 系列 较为 常 
用 的 神经 网 络 层 类 型 ， 每 种 类 型 都 带 有 配置 参数 。 用 户 还 可 以 将 这 些 层 连接 起 来 ,形成 完整 的 神 
经 网 络 。 除 此 之 外 ，Keras 的 API 还 可 以 完成 以 下 操作 。 

口 指定 神经 网 络 的 训练 方式 〈 损 失 函 数 、 度 量 指标 和 优化 硕 )。 

口 回 神 经 网 络 注入 数据 ， 从 而 进行 训练 、 评 佑 或 使 用 模型 进行 推 呆 。 

口 检测 正在 进行 的 训练 过 程 (回调 果 数 )。 

口 保存 和 读 取 模型 。 

口 打印 或 绘制 模型 架构 。 

借助 Keras， 用 户 仅 通过 几 行 代码 就 能 完成 深度 学 习 整 个 流程 。 另 外 ， 有 了 低 阶 API 的 灵活 
性 和 高 阶 API 的 易 用 性 加 持 ，TensorFlow 和 Keras 形成 了 一 个 共同 生态 ， 这 种 生态 在 工业 和 学 术 
研究 中 得 到 了 广泛 应 用 。 作 为 当下 正在 发 生 的 深度 学 习 音 命 的 重要 组 成 部 分 , 它们 在 推广 深度 学 
习 方 面 有 着 不 可 小 裔 的 贡献 。 以 TensorFlow 框 并 和 Keras 框架 为 界 ,在 它们 出 现 之 前 ， 要 想 真 正 
进行 深度 学 习 ， 必 须 拥 有 CUDA 编程 技能 以 及 用 C++ 编写 神经 网 络 的 大 量 经 验 ; 在 它们 出 现 之 
后 ， 再 创建 具有 GPU 加 速 的 深度 神经 网 络 ， 整 个 流程 所 需 的 技能 门槛 和 精力 都 大 大 下 降 。 但 是 
仍 有 一 个 问题 悬而未决 , 那 就 是 在 JavaScript 中 或 者 直接 在 浏览 絮 中 运行 TensorFlow 模型 或 Keras 
模型 ， 还 缺少 一 种 方法 。 要 想 在 浏览 器 中 使 用 训练 好 的 深度 学 习 模 型 ， 必 须 通过 HTTP 请 求 在 后 
庄 获取 推 其 结束 ， 这 承 是 TensorFlow.js 要 解决 的 痛 点 。Nikhil Thorat 和 Daniel Smilkov 是 谷歌 深 
度 学 习 数 据 可 视 化 和 人 机 交互 方面 的 专家 ， 他 们 发 起 了 TensorFlow.js”。 正 如 前 面 提 到 的 ， 非 常 
流行 的 TensorFlow Playground 率先 在 浏览 郁 端 演示 了 深度 神经 网 络 的 工作 原理 ， 它 是 
TensorFlow.js 的 重要 前 驱 。2017 年 9 月 ，deeplearn.js 库 发 布 了 , 它 有 着 和 TensorFlow 的 低 阶 API 
高 度 类 似 的 低 阶 API。deeplearn.js 率先 实现 了 WebGL 加 速 的 神经 网 络 运算 ， 从 而 能 够 以 低 延 迟 
在 浏览 规 端 运行 真正 的 神经 网 络 。 
















































































J 比如 卷 积 层 、 池 化 层 、 密 集 层 等 ， 后 面 的 章节 会 具体 介绍 。 

go 事实 上 ， 自 TensorFlow 推出 以 来 出 现 了 很 多 高 阶 API， 有 些 是 谷歌 工程 师 创 建 的 ， 有 些 是 开源 社区 创建 的 ， 其 中 
较 受 欢迎 的 包括 Keras、tf.Estimator、tf.contrib.slim 和 TensorLayers 等 。 对 本 书 读者 来 说 ， 目 前 与 TensorFlow.js 最 
相关 的 高 阶 API 是 Keras。 这 是 因为 TensorFlowjs 的 高 阶 API 是 以 Keras 为 蓝图 创建 的 ， 而 且 TensorFlow.js 在 保 
存 模型 和 加 载 模型 方面 与 Keras 具有 双 回 兼容 性 。 

(3) 还 有 一 个 有 趣 的 事实 ， 这 两 位 专家 对 于 TensorBoard 的 开发 (非常 流行 的 TensorFlow 模型 可 视 化 工具 ) 也 起 到 了 
关键 作用 。 
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随 厦 deeplearn.js 取得 了 初步 成 功 ， 谷 歌 大 脑 团 队 的 更 多 成 员 加 入 了 这 一 项 目 ， 项 目 也 随 之 
更 名 为 TensorFlow.js。 目 此 ，JavaScriptAPI 进 行 了 大 量 的 翻新 工作 , 极 大 地 增强 了 与 TensorFlow 
在 API 方 面 的 兼容 性 。 除 此 之 外 ,TensorFlow.js 低 阶 核心 基础 上 还 构建 了 一 个 类 Keras 的 高 阶 API， 
方便 用 户 利用 TensorFlow.js 来 定义 、 训 练 和 运行 次 度 学 习 模 型 。 前 面 介 绍 了 Keras 的 强大 功能 和 
可 用 性 , 这 些 对 于 TensorFlow.js 同样 适用 。 为 了 进一步 增强 不 同 生 态 之 间 的 兼容 性 ,我 们 还 构建 
了 模型 转换 需 , 能够 让 TensorFlow.js 导入 在 TensorFlow 和 Keras 中 保存 的 模型 , 或 者 向 它们 导出 
模型 。 目 从 在 2018 年 春季 TensorFlow 开发 者 峰会 和 谷歌 IO 大 会 上 亮相 以 来 ，TensorFlow.js 快 
速 发 展 成 一 个 高 度 流 行 的 JavaScript 深度 学 习 库 , 至 今 仍 在 GitHub 上 保有 同类 库 中 最 高 星 级 和 复 
制 数量 。 

图 1-8 是 TensorFlow.js 的 架构 概览 。 架 构 的 最 抵 层 负 贡 快速 数学 运算 所 需 的 并 行 计算 ， 尽管 
绝 大 多 数 用 户 不 太 关 注 这 一 层 ， 但 是 在 这 一 层 上 保持 高 计算 性 能 至 关 重 要 ， 这 样 更 高 层 的 API 
才能 尽 可 能 快 地 进行 训练 和 推 凯 ,在 浏览 右 中 , 它 利用 WebGL 实现 GPU 加 速 ( 参 见 信 息 栏 1-2 )。 
在 Node.js 中 ， 它 还 可 以 直接 利用 多 核 CPU 进行 并 行 计算 ， 或 使 用 CUDA 进行 GPU 加 速 ， 这 跟 
Python 中 TensorFlow 和 Keras 的 数学 运算 所 使 用 的 技术 是 一 样 的 。 在 最 底层 之 上 是 Core API 层 ， 
这 一 层 和 TensorFlow 的 底层 API 有 痢 非 常 好 的 兼容 性 ， 并 文 持 加 载 TensorFlow 中 的 SavedModel 
模型 。 图 1-8 中 的 最 上 层 是 类 Keras 的 Layers API。 对 绝 大 多 数 使 用 TensorFlowjs 的 程序 员 而 言 ， 
Layers API 通 常 是 最 正确 的 选择 ， 目 然 也 是 本 书 的 焦点 所 在 。 男 外 ， 它 支持 和 Keras 进行 双 问 模 
型 叶 入 或 导出 。 
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记 览 妖 


图 1-8 ”TensorFlow.js 架构 概览 ， 以 及 它 与 Python 中 TensorFlow 和 Keras 的 关系 


1.3.2 ”为 何 选 用 TensorFlow.js 


TensorFlow.js 既 不 是 次 度 学 习 领 域 唯一 的 JavaScript 库 ， 也 不 是 这 方面 的 第 一 个 库 ， 比 如 
brain.js 和 ConvNetJS 就 出 现 得 比较 早 。 那 么 ， 为 什么 TensorFlow.js 会 从 这 些 类 似 的 库 中 脱 颖 而 
出 呢 ? 第 一 个 原因 是 它 的 全 面 性 。 对 于 次 度 学 习 在 生产 环境 中 所 涉及 的 所 有 关键 流程 ， 
TensorFlow.js 是 目前 唯一 全 部 文 持 的 库 ， 它 包括 以 下 特性 。 
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口 文 持 训练 和 推断 。 

口 文 持 Web 浏览 希 和 Node.js 两 种 环境 。 

口 能 够 利用 GPU 加 速 ( 在 浏览 器 中 使 用 WebGL， 在 Node.js 中 使 用 CUDA 核 孔 数 )。 

口 支持 用 JavaScript 定义 神经 网 络 模型 架构 。 

口 文 持 模型 的 序列 化 和 反 序列 化 。 

口 文 持 与 Python 次 度 学 习 框 外 间 的 双 回 模型 格式 转换 。 

口 兼容 Python 深度 学 习 框 染 使 用 的 API。 

口 内 置 数 据 获 取 和 可 视 化 所 需 的 API。 

第 二 个 原因 是 生态 圈 。 绝 大 部 分 JavaScript 诬 度 学 习 库 会 定义 风格 锭 异 的 专属 API, 相 较 而 言 ， 
TensorFlow.js 与 TensorFlow 和 Keras 是 深度 集成 的 。 你 是 否 已 有 一 个 用 Python 中 的 TensorFlow 或 
Keras 训 练 的 模型 ,而 且 想 在 浏览 需 中 使 用 它 ? 没 问题 ! 你 是 否 在 浏览 需 中 创建 了 一 个 TensorFlow.js 
模型 ， 然 后 想 在 Keras 中 使 用 它 ， 从 而 实现 更 快 的 加 速 设 备 ， 比 如 谷歌 的 张 量 处 理 器 (TPU ) ? 
没 问 题 ! 与 非 JavaScript 框架 的 座 度 集成 , 这 不 仅 意 味 着 更 好 的 相互 鳞 容 性 ,还 意味 着 开发 者 能 够 
更 好 地 在 不 同 的 编程 语言 环境 和 基础 设施 栈 则 进行 知识 迁移 。 举 个 例子 ,一 旦 你 通过 本 书 擎 握 了 
TensorFlow.js， 再 学 习 使 用 Python 中 的 Keras 会 相当 顺利 。 同 理 ， 如 果 你 对 Keras 有 一 定 的 了 解 ， 
而 且 有 足够 的 JavaScript 编程 功底 ,那么 学 起 TensorFlow.js 来 也 会 非常 快 。 还 有 一 点 需要 注意 , 那 
就 是 TensorFlow.js 的 流行 度 和 它 背 后 社区 的 力量 。TensorFlow.js 的 开发 者 致力 于 长 期 维护 和 文 持 
该 库 ， 从 GitHub 上 的 星 级 和 复制 数量 ， 到 外 部 贡献 者 的 数量 ， 从 各 种 讨论 的 活跃 度 ， 到 Stack 
Overflow 上 相关 提问 和 回答 的 数量 ， 这 些 方面 都 能 够 说 明 TensorFlow.js 的 无 可 蔡 代 性 。 









































1.3.3 TensorFlow.js 在 全 球 的 应 用 情况 


厂 要 证 明 某 个 库 的 功能 和 流行 度 , 没有 什么 比 它 在 真实 应 用 程序 中 的 使 用 情况 更 具 说 服 力 的 

以 下 是 儿 个 名 声 赫 赫 的 关于 TensorFlow.js 的 应 用 程序 。 

口 谷歌 的 Magenta 项目 使 用 TensorFlow.js 来 运行 RNN 和 其 他 类 型 的 深度 神经 网 络 ， 从 而 在 
浏览 大 中 自动 生成 乐谱 和 新 新 的 音律 (参见 Magenta 网 站 的 Demos 界面 )。 

口 Dan Shiffman 和 他 在 纽约 大 学 的 同事 创造 了 ML5js， 它 是 可 以 直接 在 浏览 锅 中 调用 各 种 
深度 学 习 模 型 的 易学 的 高 阶 API， 实 现 了 目标 检测 和 图 像 风 格 迁 移 等 功能 。 

口 开源 软件 开发 者 Abhishek Singh 基于 浏览 带 创造 了 能 将 美式 手语 转换 成 语 首 的 交互 界面 ， 
让 登 哑 人 也 可 以 使 用 像 亚 马 逊 Echo 这 类 的 智能 音箱 。 

口 Canvas Friends 是 一 个 基于 TensorFlow.js 的 Web 应 用 程序 , 可 以 通过 游戏 化 的 方式 帮助 用 
户 提高 绘画 技能 〈 人 参见 Canvas Friends 的 网 站 )。 

口 MetaCar 是 在 浏览 硕 中 实现 的 目 动 罗 驶 模拟 硕 。 其 中 , 用 TensorFlow.js 实现 的 强化 学 习 算 
法 是 成 功 模 拟 的 关键 。 

D Clinic doctor 是 基于 Nodejjs 的 服务 如 并 性 能 监控 应 用 程序 ， 它 用 TensorFlow.js 实现 了 隐 
马尔 可 夫 模 型 ， 并 以 此 来 探测 CPU 使 用 率 的 突然 增加 。 








O 
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口 还 可 以 在 GitHub 网 站 的 TensorFlow 页 面 中 找到 更 多 由 TensorFlow.js 开源 社区 共同 创造 的 
优秀 的 应 用 程序 。 


1.3.4 本 书 中 的 TensorFlow.js 知识 


通过 对 本 书 的 学 习 ， 你 可 以 用 TensorFlow.js 构建 以 下 应 用 程序 。 

口 对 用 户 上 传 的 图 像 进 行 自 动 分 类 的 网 站 。 

口 能 够 从 浏览 硕 调 用 传 感 锅 获取 图 像 和 音频 数据 ， 然 后 对 其 进行 识别 和 迁移 学 习 等 实时 机 

妖 学 习 任 务 的 深度 神经 网 络 。 
口 位 于 客户 并 的 日 然 语 言 处 理 模 型 ， 例 如 有 助 于 省 理 评论 区 言论 的 情绪 分 类 和 可。 
口 位 于 后 端的 、 基 于 Nodejjs 的 机 带 学 习 模 型 训练 项 ， 可 以 处 理 吉 字 贡 级 的 数据 和 GPU 加速。 
口 能 完成 小 型 控制 和 游戏 任务 的 强化 学 习 模 型 。 
口 可 以 展示 已 训练 模型 的 内 部 构造 和 机 需 学 习 实 验 结果 的 可 视 化 界面 。 
更 重要 的 是 ， 你 不 仪 能 学 会 如 何 构 建 和 运行 这 样 的 应 用 程序 ， 还 会 知晓 其 背后 的 工作 原理 。 
也 就 是 说 , 通过 阅读 本 书 , 可 以 获得 深度 学 习 模 型 构建 过 程 中 不 同 问题 所 涉及 的 策略 和 相关 限制 
的 实用 知识 ， 同 时 还 可 以 了 解 训练 和 部 署 这 些 模型 的 具体 步骤 以 及 重要 注意 事项 。 
机 带 学 习 涉 及 的 领域 非常 广 ,， 而 TensorFlow.js 是 一 个 灵活 且 全 面 的 库 。 因 此 , 尽管 有 些 应 用 
程序 超出 了 本 书 的 讨论 范畴 , 但 是 它们 完全 可 以 通过 TensorFlow.js 现 已 提供 的 技术 来 实现 ， 比 如 
下 面 这 些 示 例 。 
口 在 Node.js 环境 中 ， 对 涉及 大 量 数据 [ 太 字 站 (TB ) 级 数据 ] 的 次 度 神经 网 络 进 行 高 性 能 、 
分 布 式 训练 。 

口 非 神经 网 络 技 术 ， 比 如 SVM 、 决 策 树 和 随机 和 森林 算法 。 

口 高 级 深度 学 习 应 用 程序 ， 比 如 能 将 大 量 文本 概括 成 儿 个 代表 性 句子 的 文本 摘要 引擎 ， 能 
根据 输入 岁 像 生成 文本 描述 的 图 像 转 文本 引擎 ， 还 有 能 够 增强 输入 网 像 分 辨 率 的 生成 网 
像 模型 。 
但 无 论 如 何 , 本 书 提供 了 有 关 桨 度 学 习 的 基础 知识 , 可 为 你 以 后 学 习 这 些 高 级 应 用 程序 的 代 
人 码 和 技术 文章 做 好 知识 储备。 
与 其 他 技术 一 样 ，TensorFlow.js 也 有 局 限 性 。 有 些 任 务 确 实 超出 了 它 的 能 力 范 围 ， 尽 管 未 来 
的 技术 发 展 很 可 能 会 突破 这 些 限 制 ， 但 是 现在 了 解 一 下 这 些 限 制 也 没有 坏处 。 
口 运行 座 度 学 习 模 型 所 需 的 内 存 超 出 浏览 大 上 随机 存储 着 (RAM ) 和 WebGL 的 上 限 。 也 就 
是 说 ， 如 果 在 浏览 疾 中 进行 推断 ， 模 型 的 尺寸 需要 控制 在 100MB 左右 ; 训练 阶段 通 向 需 
要 更 多 的 内 存 和 算 力 ， 即 使 模型 的 尺寸 没 达到 上 限 ， 也 有 可 能 导致 训练 过 程 过 于 缓慢 。 
通常 ， 训 练 阶段 所 涉及 的 数据 量 要 比 推断 阶段 大 ， 因 此 在 评 合 浏 览 副 内 训练 可 行 性 时 ， 
还 需要 考虑 这 个 限制 因 系 。 

口 创造 高 端 强化 学 习 模 型 ， 比 如 能 够 在 对 弈 系统 中 击败 人 类 选手 。 

口 使 用 Node.js 以 分 布 式 (多 机 需 ) 的 方式 训练 深度 学 习 模 型 。 






























































1.5 小结 2 


1.4 ”练习 


无 论 你 是 JavaScript 前 端 开发 者 , 还 是 Node.js 开发 者 , 基于 本 章 介 绍 的 内 容 , 头脑 风 骏 一 些 
你 可 以 应 用 机 右 学 习 的 场景 ,让 正在 编写 的 程序 更 为 缠 能 ， 表 1-1、 表 1-2 以 及 1.3.3 市 可 以 为 你 
提供 一 些 思 路 。 也 可 以 思考 下 面 儿 种 场景 。 

(1) 一 些 经 营 墨 镜 等 配饰 的 时 尚 网 站 可 以 通过 网 络 摄像 涉 折 摄 用 户 的 面部 图 像 ， 并 使 用 基于 
TensorFlow.js 的 深 度 神 经 网 络 检 测 面 部 轮 廊 特征 ,然后 利用 这 些 关 键 信息 将 墨镜 图 像 贴 附 在 用 户 
面部 图 像 上 ,用 户 可 以 通过 合成 的 图 像 进行 试 戴 体 验 。 这 种 体验 是 相对 真实 的 ， 因 为 借助 客户 并 
推 新 ， 这 种 试 戴 可 以 在 低 延 民 、 高 帧 率 的 情况 下 进行 。 同 时 由 于 捕获 的 图 像 没 有 离开 过 浏览 疮 ， 
因此 用 户 的 隐私 数据 在 这 一 过 程 中 得 到 了 充分 保护 。 

(2) 使 用 React Native( 基于 JavaScript 的 路 平台 原生 移动 端 应 用 程序 开发 框架 ) 编写 的 移动 
端 体育 应 用 程序 可 以 记录 用 户 的 锻炼 信息 。 利 用 HTML5 API， 应 用 程序 可 以 从 手机 的 陀螺 仪 和 
加 速度 计 中 获取 实时 数据 。 然 后 基于 TensorFlow.js 的 模型 可 以 通过 处 理 这 些 数据 , 判断 用 户 当 前 
的 状态 ， 比 如 休息 、 散 步 、 慢 跑 或 者 冲刺 。 

(3) 浏览 妖 插 件 可 以 通过 网 络 摄像 涉 每 5 秒 为 用 户 进 行 招 照 ， 然 后 将 这 些 数据 传 至 基于 
TensorFlow.js 的 模型 , 自动 检测 当前 用 户 的 年 龄 特征 , 从 而 判断 用 户 对 一 些 网 站 是 否 有 访问 权限 。 

(4) 基于 浏览 套 的 编程 环境 可 以 使 用 基于 TensorFlow.js 的 循环 神经 网 络 来 检测 代码 注释 中 的 
低级 错误 。 

(5) 基于 Nodejjs 的 服务 需 闪 应 用 程序 可 以 提供 物流 查询 服务 ， 束 是 根据 货物 的 运送 状态 、 类 
型 、 数 量 、 所 属地 交通 状况 等 实时 信息 来 确定 预计 到 达 时 间 〈ETA )。 整 个 训练 和 推断 流程 都 可 
以 用 Nodejs 和 TensorFlow.js 编号， 这 样 就 简化 了 服务 右 问 的 技术 栈 。 


















































1.5 小结 


口 AI 是 实现 认 知 性 任务 自动 化 的 研究 。 机 器 学 习 是 AI 的 子 领 域 ， 旨 在 通过 学 习 训 练 数据 ， 
自动 发 现 图 像 分 类 这 类 任务 背后 的 规则 。 

口 机 右 学 习 要 解决 的 核心 问题 是 如 何 转 换 数 据 的 表示 ， 从 而 更 好 地 解决 当下 的 问题 。 

口 在 机 融 学 习 中 ， 神 经 网 络 可 以 通过 连续 的 数学 运算 步骤 ( 层 ) 来 转换 数据 的 表示 。 深 度 
学 习 领 域 涉及 拥有 一 定 “ 深 度 ” 的 神经 网 络 ， 也 就 是 拥有 很 多 层 的 神经 网 络 。 

口 得 益 于 人 硬件 性 能 的 提升 、 带 标签 数据 的 增长 以 及 算法 上 的 革新 ,深度 学 习 领 域 自 2010 年 
以 来 取得 了 一 系列 惊人 的 成 就 ,解决 了 很 多 之 前 难以 解决 的 问题 ， 还 创造 了 很 多 令 人 兴 
奋 的 新 机 过。 

口 与 其 他 语言 一 样 ，JavaScript 和 Web 浏览 器 同样 适用 于 训练 和 部 署 深 度 神 经 网 络 。 

口 TensorFlow.js 是 一 个 人 全面、 灵活 且 强 大 的 JavaScript 开源 深度 学 习 库 ， 也 是 本 书 的 重点 。 

















| 第 二 部 分 
深入 浅 出 TensorFlow.js 





第 一 部 分 介绍 了 一 些 重要 的 基本 概念 ， 第 二 部 分 将 结合 TensorFlow.js， 以 实战 的 方式 深入 了 
解 机 融和 学习。 第 2 章 介 绍 了 机 各 学 习 任 务 中 的 “回归 ”， 也 就 是 预测 一 个 数字 。 我 们 从 这 个 简单 
的 示例 人 人手， 然后 逐渐 过 渡 到 更 复杂 的 任务 ,例如 第 3 草 和 第 4 草 中 的 二 分 类 和 多 分 类 问题 。 随 
春 任务 类 型 变 得 复杂 ， 所 接触 的 数据 也 会 从 最 开始 价 单 的 数据 (一 维 数组 ) 过 渡 到 更 复杂 的 类 型 
( 图 像 和 音频 )。 这 里 会 根据 具体 的 问题 和 解决 这 些 问题 的 代码 ,辅助 讲解 机 需 学 习 方 法 背后 的 数 
学 理论 ， 比 如 反 回 传播 算法 。 另 外 ,讲解 过 程 中 将 尽量 使 用 避免 数学 证 明 ， 而 是 使 用 更 直观 的 解 
释 、 图 表 和 伪 代 人 码 。 第 5 草 讨 论 了 迁移 学 习 ， 即 一 种 将 预 训练 的 神经 网 络 复 用 到 新 数据 的 高 效 方 
法 ， 尤 其 适用 于 浏览 带 环 境 中 的 深度 学 习 。 





























TensorFlow.js 入 门 : /从 简单 
的 线性 回归 开始 





本 章 要 点 

口 通过 极 简 的 神经 网 络 示例 介绍 线性 回归 的 简单 机 器 学 习 模型 。 
口 张 量 和 张 量 运算 。 

口 基本 的 神经 网 络 优化 。 








没有 人 喜欢 等 待 ， 如 果 等 竺 时 间 未 知 ， 这 种 情况 更 是 令 人 前 熬 。 所 有 用 户 体验 设 计 师 都 会 告 
诉 你 ,如果 确 实 无 法 避免 延 民 ,那么 最 好 为 用 户 预 佑 可 靠 的 等 竺 时间。 预 佑 等 待 时间 本 质 上 就 是 
预测 问题 ， 而 这 正 是 TensorFlow.js 的 强项 。TensorFlow.js 可 以 根据 使 用 场景 和 用 户 信 息 准 确 地 预 
测 下 载 任务 所 需 时 间 ， 从 而 打造 清晰 可 靠 的 体验 ， 充 分 尊重 用 户 的 时 间 和 注意 力 。 

本 章 将 围绕 预测 下 载 任务 所 需 时 间 这 个 问题 展开 , 详细 介绍 完整 的 机 融 学 习 模 型 的 主要 组 成 
部 分 ， 同 时 从 实用 的 角度 讲解 张 量 、 建 模 和 优化 等 概念 ， 帮 助 你 直观 地 理解 它们 的 含义 、 原 理 以 
及 正确 用 法 。 

对 专业 的 研究 人 员 而 言 ， 要 想 完 全 理解 次 度 学 习 的 内 部 结构 ， 需 要 经 过 数 年 潜 心 全 究 ， 同 时 
还 需要 涉猎 多 个 数学 学 科 。 但 对 次 度 学 习 从 业者 而 言 ， 次 挖 线性 代数 、 微 积分 和 高 维 数据 空间 统 
计 虽 然 确 有 帮助 ， 但 实 无 上 必要， 即使 是 构建 复杂 的 高 性 能 系统 ， 情 况 也 是 如 此 。 本 章 旋 至 全 书 都 
致力 于 同一 个 目标 , 那 就 是 尽 可 能 使 用 代码 而 不 是 数学 符号 来 介绍 必要 的 技术 概念 ， 从 而 摆脱 专 
业 领 域 知 识 的 束缚 ， 直 观 地 理解 机 天 学 习 技 术 及 其 目的 。 


2.1 示例 1: 用 TensorFlow.js 预测 下 载 任 务 所 需 时 间 


这 里 要 用 TensorFlowjs〈 有 时 简称 为 三 s ) 来 构建 一 个 极 简 的 神经 网 络 ， 它 能 根据 文件 大 小 
来 预测 下 载 该 文件 所 需 的 时 间 。 除 非 使 用 过 TensorFlow.js 或 其 他 类 似 的 库 ， 和 否则 在 接触 这 个 示 
例 时 ， 你 可 能 无 法 理解 其 中 的 所 有 细 市 ， 但 无 须 担 心 ， 这 是 很 正常 的 。 对 于 本 章 所 涉及 的 每 一 
个 话题 ， 后 续 革 广 中 痢 会 再 详细 介绍 。 几 事 痢 有 个 起 点 ， 本 章 就 完 来 编写 一 个 简单 的 神经 网 络 
示例 。 
































2.1 示例 1: 用 TensorFlow.js 预测 下 载 任务 所 需 时 间 31 


2.1.1 项 目 概览 : 预测 下 载 任务 所 需 时 间 


在 最 初 接触 机 上 种 学 习 系 统 时 ,如 来 下 接 面 对 铺 天 冀 地 的 新 概念 和 专业 术语 , 你 很 可 能 会 望 而 
却步 。 因 此 ,为 了 更 好 地 理解 ， 这 里 从 机 右 学 习 的 整体 流程 入 手 。 图 2-1 是 本 示例 的 大 致 流程 ， 
也 是 本 书后 续 示 例 中 反复 出 现 的 一 个 通用 模式 。 





获取 训练 集 


这 个 简单 的 项 目 会 硬 编码 一 个 
JavaScript 数 组 ， 并 将 它 传 给 模型 ， 


代码 清单 2-1 参见 2.1.3 节 ( 节 首 ) 


将 数据 转换 成 张 量 
存储 数据 的 对 象 必须 以 张 量 表示 ， 


参见 2.1.3 节 ( 布 末 ，) 
代码 清单 2-2 


创建 模型 
使 用 和 Keras 兼 容 的 TensorFlow.js 层 结 
构 构 建 简单 线性 模型 ， 参 见 2.1.4 市 
代码 清单 2-3 和 代码 清单 2-4 


使 模型 拟 合 数据 
训练 模型 ， 并 使 其 拟 合 训练 集 ， 从 而 
检查 现 有 的 训练 流程 是 个 有 获 ， 参 见 


代码 清单 2-5 2.1.35- 


针对 新 数据 应 用 模型 





使 用 训练 好 的 模型 进行 预测 ， 参 见 
2.1.6 市 


图 2-1 示例 1 主要 步骤 概览 


首先 要 获取 训练 用 的 数据 〈 即 训练 集 ) 在 机 带 学 习 中 ， 数 据 可 以 从 多 种 染 道 狄 得， 比如 从 
便 盘 中 该 取 、 从 网 络 上 下 载 、 直 接 通过 程序 生成 ,或 简单 地 便 编 色 。 这 里 采用 最 后 一 种 方法 ， 因 
为 这 样 比较 价 便 ， 而 且 涉 及 的 数据 量 很 小 。 其 次 将 数据 转换 为 张 量 ,， 让 它们 能 够 输入 模型 中 。 下 
一 步 就 是 创建 模型 ， 正 如 第 1 革 所 述 ， 这 与 也 数 的 概念 类 似 ， 相 当 于 设计 一 个 可 训练 函数 ,能 饱 
将 输入 数据 映射 到 预测 目标 。 在 本 例 中 , 输入 数据 和 预测 目标 都 古 数 子 。 一 旦 准备 好 模型 和 数据 
后 ,就 可 以 开始 训练 模型 ,并 查看 它 在 训练 过 程 中 生成 的 度量 指标 报告 了 。 在 这 一 切 完成 后 ,就 
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可 以 用 训练 好 的 模型 来 预测 未 曾 出 现 的 数据 ， 同 时 评估 模型 的 准确 率 。 
我 们 将 通过 复制 烙 巾 代码 片段 来 完成 每 一 个 环节 , 并 在 每 一 个 市 点 上 针对 所 涉及 的 理论 和 工 
具 进 行 解 释 。 


2.1.2 ”关于 代码 清单 和 控制 台 交 互 的 注意 事项 


本 书 有 两 种 代码 展现 形式 。 第 一 种 是 代码 清单 ， 展示 来 日 本 书 代码 仓库 的 结构 性 代码。 每 一 
份 代码 清单 郡 由 标题 和 编 吕 组 成 。 例 如 , 代码 清单 2-1 包含 了 一 段 简单 的 HTML 代码 , 你 可 以 将 
这 段 代码 一 字 不 差 地 复制 到 新 文件 中 ， 比 如 /tmp/tmp.html， 然 后 通过 浏览 器 访问 file:///tmp/ 
tmp.html， 查 看 代 公 的 运行 结果 。 当 然 ， 它 现在 不 会 执行 太 多 操作 。 

第 二 种 是 控制 台 交 互 。 这 些 相 对 非 正式 的 代码 片段 主要 用 来 展示 JavaScript REPL" 中 的 交互 
操作 ， 比 如 在 浏览 锅 开 发 者 模式 下 目 带 的 JavaScript 控制 台中 发 生 的 交互 ， 其 中 可 以 通过 
Cmd+Opt+J (macOS )、Ctrl+ShifttJ( Windows ) 或 F12 等 快捷 键 在 Chrome 浏览 锅 中 打开 控制 台 。 
这 里 只 是 简单 示例 ， 具 体 快 捷 键 取决 于 所 使 用 的 浏览 锅 和 操作 系统 。 正 如 Chrome 或 火狐 浏览 3 
所 显示 的 那样 ， 控 制 台 交互 在 每 行 起 始 处 以 大 于 号 ( > ) 为 标志 ， 输 出 会 显示 在 下 一 行 。 比 如 下 
面 的 交互 会 先 创 建 一 个 数组 ， 然 后 打印 出 数组 的 值 。JavaScript 控制 台中 显示 的 结果 可 能 会 略 有 
不 同 ， 但 本 质 是 一 样 的 : 


> let a = ['hello', 'world', 2 * 1009] 
> a; 
(3) ["hello", "world", 2018|] 


测试 、 运 行 和 学 习 代 码 清 单 内 容 的 最 佳 方法 是 下 载 本 书 随 书 代 码 ， 然 后 在 本 地 进行 试验 。 本 
书 在 编写 过 程 中 经 常 使 用 CodePen”， 它 可 以 用 作 简 单 、 可 分 享 的 交互 式 代 码 仓库 。 比 如 ， 可 以 
通过 示例 链接 ”验证 代码 清单 2-1 中 的 内 容 ， 当 页 面 跳 转 到 CodePen 后 ， 里 面 的 代码 会 自动 运行 。 
可 以 在 控制 台中 查看 输出 结果 , 单 击 页 面 左 下 角 的 Console 按钮 就 可 以 打开 控制 台 。 如 果 CodePen 
里 的 代码 没有 目 动 运行 ， 那么 可 以 做 一 点 修改 (不 影响 程序 运行 结果 )， 比 如 在 最 后 一 行 添 加 一 
个 空格 来 触发 程序 运行 。 

当 只 有 一 个 JavaScript 文件 时 ，CodePen 非常 好 用 ，GitHub 代码 仓库 中 则 提供 了 一 些 更 大 、 
结构 更 复杂 的 示例 程序 ， 这 些 将 在 后 面 的 示例 中 介绍 。 对 于 这 些 示例 , 你 可 以 先 尝试 理解 本 市 内 
容 ， 有 再 按 顺 序 试 验 相 关 的 CodePen 代码 。 


2.1.3 创建 和 格式 化 数据 
现在 回 到 最 开始 的 问题 ， 即 根据 文件 大 小 (单位 是 MB ) 预测 下 载 任务 所 需 的 时 间 。 首 先 使 

































































CO read-eval-print-loop 的 简称 ， 即 “ 读 取 、 求 值 、 输 出 、 循 环 " ， 也 称 为 交互 式 解 释 需 或 shell， 可 以 主动 与 代码 进行 
交互 ， 并 执行 变量 查询 和 测试 函数 等 操作 。 
@) 一 款 在 线 代码 编辑 融 应 用 程序 。 译 者 注 
@) 本 节 涉 及 的 所 有 代码 都 可 以 在 CodePen 中 找到 ， 可 以 登录 图 灵 社 区 获取 相关 资源 : http://ituring.cn/book/2813。 
编者 注 
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用 一 个 预先 创建 好 的 数据 集 作 为 输入 ， 如 代码 清单 2-1 所 示 。 当 然 ， 如 果 你 有 欣 险 精神 ， 也 可 以 
创建 一 个 类 似 的 数据 集 ， 来 反映 个 性 化 的 系统 网 络 统计 数据 。 


代码 清单 2-1 便 编 码 的 训练 集 和 测试 集 ( 参见 CodePen 2-a ) 


<script src='https://cdn.jJsdelivr.net/npm/@tensorflow/tfjs@latest'></script> 











<script> 
const trainData = f{ 
S1LZeMB : [0.080，9.000，0.001，0.100，8.000， 
S5000, O100; 6000, O050, O500., 
0.002, 2.000, 0.005, 10.00, 0.010, 
7.000，6.000，5.000，1.000，1.000]， 
timeSec: [0.135, 0.739, 0.067, 0.126, 0.646, 
0.435, 0.069, 0.497, 0.068, 0.116, 
0.070, 0.289, 0.076, 0.744, 0.083, 
0.560, 0.480, 0.399, 0.153,，0.149] 
了 
const testData = { 
sizeMB: [5.000, 0.200, 0.001, 9.000，0.002, 
0.020, 0.008, 4.000, 0.001, 1.000,， 
005, 0.080, 0.800, 0.200, 0.050, 
7.000, 0.005, 0.002, 8.000, 0.008],， 
timeSec: [0.425, 0.098, 0.052, 0.686, 0.066, 
0.078, 0.070, 0.375, 0.058, 0.136, 
0.052, 0.063, 0.183, 0.087, 0.066, 
0.558, 0.066, 0.068, 0.610,， 0.057] 
J 
</script> 


以 上 代码 清单 展示 的 HTML 代码 中 明确 地 写 出 了 <script> 标 签 , 指明 了 如 何 使 用 elatest 
后 级 加 载 最 新 版 的 TensorFlow.js 库 ”。 后 面 会 详细 介绍 如 何 用 不 同 的 方式 导入 TensorFlow.js， 现 
在 假设 本 草 继 续 使 用 <script> 标 签 进 行 导入 。 第 一 段 脚 本 会 加 载 TensorFlow.js 库 并 定义 tf 符 
号， 这 样 后 续 程序 就 可 以 直接 利用 tf 引用 TensorFlow.js 中 的 方法 名 。 例 如 ， 可 以 用 tf .ada() 
在 TensorFlow.js 中 进行 两 个 张 量 间 的 加 法 运算 。 之 后 的 讨论 会 假设 tf 符号 已 加 载 ， 并 且 可 以 在 
全 局 命名 空间 中 获取 ， 也 就 是 说 ， 该 符号 已 经 通过 上 述 方式 导入 了 TensorFlow.js。 

代码 清单 2-1 中 创建 了 两 个 常量 ，trainData (训练 集 ) 和 testData (测试 集 )， 其 中 各 
包含 20 个 样 例 ， 记 录 了 下 载 文件 所 需 时 间 ( timeSec ) 和 文件 大 小 ( sizeMB )。timeSec 和 
sizeMB 中 的 元 素 是 一 一 对 应 的 。 例 如 ，trainData 中 sizeMB 的 第 一 个 元 素 大 小 为 0.080MB， 
下 载 所 需 时 间 为 0.135 秒 ， 也 就 是 timesec 中 第 一 个 元 系 的 什 ， 其 他 元 素 均 还 循 这 种 规律 。 本 
示例 的 目标 是 根据 sizeMB 来 预测 timeSec。 在 创建 数据 时 ， 这 里 采用 了 直接 在 代码 中 便 编 码 
的 方法 , 这 只 是 针对 当前 简单 示例 的 临时 解决 办 法 , 随 看 数据 集 的 增长 , 该 方法 很 快 便 不 再 适用 。 
后 面 革 市 的 示例 将 展示 如 何 从 便 盘 或 网 络 中 获取 数据 。 

然后 再 来 看 一 下 数据 ， 如 图 2-2 所 示 ， 文 件 大 小 和 下 载 所 需 时 间 之 间 存 在 一 种 可 预测 (但 也 
许 并 不 完美 ) 的 关系 。 这 是 因为 现实 中 的 数据 是 存在 噪声 的 。 尽 管 如 此 , 在 给 定 文件 大 小 时 ， 还 


























Q 在 创作 本 书 时 ， 所 加 载 的 区 s 版 本 是 0.13.5。 
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是 可 以 很 好 地 线性 预测 下 载 所 需 时 间 。 可 以 看 到 ， 当 文件 大 小 为 0 时 ， 下 载 所 需 时 间 为 0.1 秒 。 
在 此 基础 上 上， 文件 大 小 每 增加 1IMB ， 下 载 所 需 时 间 就 增长 0.07 秒 。 第 1 章 中 兽 提 到 ， 一 个 输入 
和 一 个 输出 对 应 的 组 合 通 常 叫 作 样 例 ( example )。 输 出 通 稼 又 叫 作 目 标 (tarsget )， 输 入 中 的 各 种 
元 系 叫 作 特征 ( feature )。 在 本 示例 的 40 个 样 例 中 ， 每 个 样 例 都 正好 有 一 个 特征 ( sizeMB ) 和 一 
个 数值 目标 (timesSec )。 





文件 下 载 所 需 时 间 
. 加 ® tramData 
二 全 testData 
本 
0.6 全 
会 息 
开 熏 
本 0.4 上 一 沁 
5 a 
= We 入 





文件 大 小 (MB) 
图 2-2 统计 出 的 文件 大 小 和 下 载 所 需 时 间 的 对 应 关系 ” 





在 代码 清单 2-1 中 ,你 可 能 已 经 注意 到 数据 分 为 了 两 个 子 集 ， 也 就 是 trainData 和 testData。 
trainData 也 就 是 训练 集 ， 包 含 模 型 训练 所 需 的 样 例 。testpata 是 测试 集 ， 可 以 测试 已 完成 
训练 的 模型 的 性 能 。 如 有 果 训 练 和 测试 使 用 完全 一 样 的 数据 ， 这 就 好 比 在 看 了 答案 后 再 考试 。 从 理 
论 上 讲 ,， 在 最 极 并 的 情况 下 ， 模 型 可 以 记 住 训练 集中 每 一 个 timeSec 和 sizeMB 的 对 应 关系 。 
这 显然 不 是 一 个 好 的 学 习 算法 。 因 为 未 来 输入 特征 的 值 不 太 可 能 和 训练 模型 时 使 用 的 完全 一 样 ， 
所 以 由 此 得 出 的 测试 结果 不 能 很 好 地 反映 模型 未 来 的 性 能 。 

因此 ， 应 该 采用 如 下 的 工作 流程 。 首 和 完 ， 让 神经 网 络 拟 合 训 练 集 ， 从 而 根据 给 定 的 sizeMB 
来 准确 预测 timeSec。 然 后 ， 让 神经 网 络 基 于 测试 集中 的 sizeMB 进行 预测 。 接 者 ， 将 预测 值 
与 测试 集中 的 timeSec 进行 比较 ， 计 算 它 们 的 接近 程度 。 在 开始 实践 之 前 ， 需 要 将 这 些 数据 转 
换 成 TensorFlow.js 能 文 持 的 格式 ， 那 就 是 张 量 。 代 码 清单 2-2 提供 了 一 个 示例 ， 这 是 本 书 中 第 一 
次 使 用 属于 tf .* 命 名 空间 的 函数 ,同时 展示 了 如 何 将 原始 的 JavaScript 数据 结构 中 存储 的 数据 转 
换 为 张 量 。 

尽管 转换 为 张 量 这 种 方法 使 用 起 来 很 简单 ， 但 是 如 果 想 加 强 对 TensorFlow.js API 的 理解 ， 
则 可 以 阅读 附录 B。 其 中 不 仅 包 含 像 tt.tensor2da() 这 样 创建 张 量 的 函数 ， 还 包含 可 以 转换 





























QD 如 果 你 现在 就 想 知 道 如 何 绘制 这 样 的 图 表 ， 可 以 参考 CodePen 2-b 中 的 代码 。 
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和 组 合 张 量 的 洱 数 ， 以 及 如 何 将 现实 中 常用 的 数据 类 型 ( 如 图 像 和 视频 等 ) 打包 成 张 量 的 常见 
设计 模式 。 本 书 正 文 并 未 深入 讲解 低 阶 API， 这 方面 内 容 相 对 枯燥 ， 并 且 和 示例 中 的 具体 问题 
无 关 。 

代码 清单 2-2 将 数据 转换 成 张 量 (参见 CodePen 2-b ) 








const trainTensors = { 
sizeMB: tf.tensor2d(trainData.sizeMB, [20, 1]), 
timeSec: tf.tensor2d(trainData.timeSec，[20,，1]) 此 处 的 [20，1] 描 述 的 是 张 量 的 “ 形 
}; 状 ”， 后 面 会 详细 人 解释。 简单 来 说 ， 这 
const testTensors = 1 里 的 形状 意味 着 我 们 想 将 原 数 组 理解 
sizeMB: tf.tensor2d (testData.sizeMB, [20, 1]), 为 20 个 样本 ,每 个 样本 都 是 1 个 数字 。 
timeSec: tf.tensor2d(testData.timeSec, [20, 1]) 如 果 可 以 从 数组 的 结构 或 其 他 位 置 明 
}; 显 推断 出 形状 ， 则 可 以 省 略 此 参数 





总 体 来 说 , 张 量 是 当下 所 有 机 需 学 习 系 统 的 基本 数据 结构 ,对 于 机 需 学 习 领 域 具有 根本 意义 
上 的 重要 性 ，TensorFlow 和 TensorFlow.js 的 名 字 都 源 目 张 量 ， 由 此 可 见 一 斑 。 现 在 快速 回顾 第 1 
草 的 内 容 : 张 量 本 质 上 是 数据 的 容 锅 ， 而 数据 几乎 总 是 数值 类 型 。 因 此 ,可 以 将 它 看 作 数 值 的 容 
希 。 你 可 能 已 经 很 玖 悉 回 量 和 怎 阵 ， 其 实 它 们 本 质 上 分 别 是 一 维 张 量 和 二 维 张 量 。 张 量 是 将 矩阵 
概念 泛 化 到 任意 维度 的 结果 ， 维 度数 和 每 个 维度 的 尺寸 叫 作 张 量 的 形状 ( shape )。 例 如 ，3x4 的 
矩阵 就 是 形状 为 [3，4] 的 张 量 ,， 长 度 为 10 的 同 量 就 是 形状 为 [10] 的 一 维 张 量 。 
在 张 量 的 语 境 下 ,维度 通常 义 叫 作 轴 ( axis )。 在 TensorFlow.js 中 , 无 论 底 层 使 用 CPU、GPU 
还 是 其 他 便 件 ,都 使 用 张 量 来 实现 互相 通信 和 协作 , 它 是 不 同 组件 之 间 共 通 的 表示 。 后 面 会 根据 
具体 问题 来 介绍 张 量 及 其 用 途 ， 接 下 来 继续 我 们 的 项 目 一 一 预测 下 载 任务 所 和 需 时 间 。 









































2.1.4 定义 简单 的 模型 


在 次 度 学 习 的 语 境 下 ,， 将 输入 特征 映射 到 输出 目标 上 的 因数 叫 作 模型 4 model )。 模型 多数 接 
收 特征 ， 执 行 一 些 计 算 ， 然后 生成 预测 值 。 这 里 构建 的 模型 函数 将 文件 大 小 作为 输入 特征 )， 
然后 输出 下 载 所 需 时 间 ( 预测 值 ), 如 图 2-2 所 示 。 在 深 度 学 习 中 ,模型 还 可 以 叫 作 网 络 ( network )， 
它们 所 指 是 一 样 的 。 我 们 的 第 一 个 模型 将 用 线性 回归 (linear regression ) 来 实现 。 

在 机 希 学 习 中 ， 回 归 ( regression ) 指 模型 会 输出 实数 什 ， 并 且 会 答 试 匹配 训练 集中 的 目标 。 
这 一 点 和 分 类 ( classification ) 是 不 一 样 的 ， 后 者 输出 的 是 从 一 系列 选项 中 做 出 的 选择 。 在 回归 
任务 中 , 模型 输出 的 数字 越 接近 目标 数字 , 其 性 能 就 越 优 异 。 根据 图 2-2, 如 采 模 型 预测 下 载 1MB 
的 文件 所 需 时 间 为 0.15 秒 ,那么 相 比 预测 所 需 时 间 为 600 秒 的 模型 ,这 个 模型 的 性 能 就 更 为 优异 。 

线性 回归 是 一 种 特定 的 回归 类 型 ,对 于 这 种 回归 类 型 , 输出 作为 关于 输入 的 函数 可 表示 为 一 
条 直线 。 同 理 ， 当 输入 包含 多 个 特征 时 ， 可 以 将 其 看 作 高 维 空间 中 的 一 个 平面 。 模 型 有 一 个 重要 
特性 ， 那 就 是 可 调 性 ( tunable )。 这 意味 独 可 以 调整 输入 到 输出 的 计算 。 我 们 利用 这 一 特性 来 调 
整 模型 ， 让 它 更 “ 拟 合 ”数据 。 在 线性 回归 场景 中 ， 模 型 的 输入 与 输出 间 的 对 应 关系 永远 是 一 条 
直线 ， 即 使 如 此 ,也 可 以 调整 模型 的 斜率 和 截 距 。 这 可 以 通过 构建 线性 回归 模型 来 理解 ， 如 代码 
清单 2-3 所 示 。 
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代码 清单 2-3 构建 线性 回归 模型 (参见 CodePen 2-c ) 
const model = tf.sequential (); 
model.add(tf.layers.dense({inputShape: [1], units: 1})); 


神经 网 络 的 核心 组 成 部 分 是 层 ( layer )， 它 是 一 个 数据 处 理 模块 ， 可 以 看 作 张 量 之 间 的 一 个 
可 调 函 数 。 这 里 的 模型 由 单个 密集 层 组 成 ， 正 如 参数 inputsnape: [1] 所 定义 的 那样 ， 这 一 层 
对 输入 张 量 的 形状 进行 了 约束 。 也 就 是 说 ,这 一 层 需 要 一 个 一 维 张 量 作为 输入 ,其 中 仪 包含 一 个 
数值 。 对 于 所 有 样 例 ， 密 集 层 都 会 输出 一 个 一 维 张 量 , 但 其 尺寸 可 以 通过 units 属性 进行 配置 。 
对 这 个 示例 而 言 ， 只 需要 输出 一 个 数字 ， 这 是 因为 我 们 想 要 预测 的 timeSec 就 是 一 个 数字 。 

从 本 质 上 讲 ， 密 集 层 就 是 执行 每 组 输入 与 输出 之 间 的 可 调 的 乘积 累加 (multiply-add ) 运算 。 
因为 只 有 一 个 输入 和 一 个 输出 ， 所 以 这 个 模型 就 是 高 中 所 学 的 简单 线性 方程 : y = m * x + b。 
如 图 2-3 所 示 , 在 密集 层 中 , mm 叫 作 核 ( kernel )，b 叫 作 偏差 (bias )。 本 示例 中 为 输入 ( sizeMB ) 
和 输出 (timeSec ) 之 间 的 关系 建立 了 一 个 线性 模型 。 






































输入 张 量 ， 输出 张 量 
形状 ， [1] 形状 : [1] 


sizeMB timeSec 




















图 2-3 本 示例 中 的 简单 线性 回归 模型 示意 图 。 该 模型 有 且 只 有 一 层 ， 密 集 层 中 包含 模 
型 可 调 的 权重 参数 ， 也 就 是 核 和 侦 差 


timeSec = kernel * sizeMB + bias 


这 个 方程 由 4 项 组 成 ， 其 中 有 两 项 在 模型 训练 中 是 固定 不 变 的 。 具 体 而 言 ，sizeMB 和 
timeSec 的 值 由 训练 集 决定 (参见 代码 清单 2-1 )。 剩 余 的 kernel 项 和 bias 项 是 模型 的 参数 ， 
它们 的 值 是 在 模型 创建 之 初 随机 选 定 的 。 由 这 些 随机 数值 生成 的 文件 下 载 所 需 时 间 的 预测 值 不 太 
理想 , 为 了 得 到 较 好 的 预测 值 ， 必 须 让 模型 从 数据 中 学 习 ， 目 动 为 核 与 偏差 寻找 恰当 的 数 伸 。 这 
个 寻找 的 过 程 就 是 训练 过 程 ( training process )。 

核 与 俩 差 可 以 统称 为 权重 ， 要 为 它们 设 定 恰当 的 数值 ， 需 要 下 面 两 项 内 容 。 

口 判断 当前 权重 设 定 值 是 否 理想 的 度量 指标 。 

口 根据 上 述 度量 指标 产生 的 度量 结果 更 新 权重 , 从 而 在 下 一 轮训 练 中 实现 更 优异 的 性 能 (使 

用 相同 的 度量 指标 评估 )。 
这 样 就 离 解 决 线性 回归 问题 更 近 了 一 步 。 为 了 更 好 地 训练 模型 ,还 需要 选择 度量 性 能 和 更 新 
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参数 的 方法 ,分 别 对 应 前 面 提 到 的 两 项 内 容 。 这 属于 TensorFlow.js 中 模型 编译 ( model compliation ) 
阶段 的 一 部 分 。 编 译 阶 段 需 要 进行 两 项 配置 ， 即 损失 函数 和 优化 希 。 
口 损失 函数 (loss function )， 即 度量 误差 ( error ) 的 方法 。 这 是 模型 度量 训练 集 性 能 的 方法 ， 
同时 也 是 正确 改善 模型 的 重要 依据 ， 损 失 越 低 越 好 。 在 训练 时 ， 如 果 绘 制 损失 随时 间 变 
化 的 图 ， 应 该 能 看 到 损失 会 逐渐 降低 。 如 果 模 型 训练 了 很 入 ， 损失 仍 旧 没 有 降低 ， 这 就 
意味 着 模型 并 没有 学 习 如 何 拟 合 数据 。 后 面 的 章节 会 介绍 如 何 调试 这 类 问题 。 
口 优化 器 ( optimizer )， 即 模型 基于 数据 和 损失 也 数 更 新 权重 ( 核 和 偏差 ) 所 使 用 的 算法 。 
后 面 几 间 会 具体 介绍 使 用 损失 兄 数 和 优化 右 的 原因 以 及 如 何 正 确 地 选择 它们 , 现在 仅 涉 及 对 
它们 进行 一 些 配置 。 


代码 清单 2-4 配置 训练 选项 : 模型 编译 (参见 CodePen 2-c ) 

model.compile({optimizer: 'sgd', loss: 'meanAbsoluteFrror'}); 

代码 清单 2-4 中 调用 了 模型 的 compile() 方法 ， 将 ' Sgd.' 指定 为 优化 器 ， 并 将 'meanAbsolute- 
Error' 指定 为 损失 也 数 的 类 型 。'meanAbsoluteError' 是 指 损失 哨 数 会 和 完 计 算 预 测 
(modeloutput ) 和 目标 (target ) 的 差 值 ， 然 后 取 其 绝对 值 ( 将 其 变 为 非 负 数 )， 最 后 返回 这 
些 绝对 值 (absolute ) 的 均值 (average ): 


























meanAbsoluteError = average( absolute(modelOutput - targets) )) 
例如 ， 如 果 已 知 下 面 两 项 数据 : 
modelOutput = [1.1, 2.2, 3.3, 3.6] 
targets = [Qs Za0; SQ; dO 
那么 ， 可 以 得 出 以 下 结 
meanAbsoluteError = averadgde([|1.1- 1.0|, |12.2 - 2.0|,， 
363 = Sa0Qly [3:€ = Ql ) 
= average([0.1, 0.2, 0.3, 0.4|]) 
= ;23 


如 果 模 型 做 出 离 目标 相差 甚 远 的 错误 了 预测， 那么 meanAbsoluteError 就 会 非常 大 。 与 此 
相反 ,模型 的 最 好 预测 就 是 每 一 个 预测 值 都 与 目标 完全 吻合 。 在 这 种 情况 下 ,模型 输出 的 预测 值 
和 目标 的 差 值 就 是 0， 因此 损失 (meanAbsoluteError ) 也 是 0。 

代码 清单 2-4 中 的 sgd 是 随机 梯度 下 降 算法 〈stochastic gradient descent ) 的 简称 ，2.2 市 会 
对 它 展 开 介 绍 。 简 单 来 说 ， 此 处 会 用 微 积分 来 计算 如 何 调整 权重 从 而 减 小 损失 。 基 于 计算 结果 来 
对 模型 做 出 相应 调整 ， 然 后 重复 这 一 流程 。 

模型 已 经 准备 就 络 ， 接 下 来 可 以 用 训练 集 来 训练 模型 了 。 


2.1.5 ”使 模型 拟 合 训练 集 
TensorFlow.js 可 以 通过 调用 模型 的 fit () 方 法 来 训练 模型 ， 让 模型 更 好 地 拟 合 训练 集 。 如 代 
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码 清单 2-5 所 示 ， 这 里 指定 sizeMB 张 量 为 输入 ，timeSec 张 量 为 预期 输出 。 同 时 传人 了 带 有 
epochs 属性 的 配置 对 象 , 它 指 定 要 针对 训练 集 进行 10 次 训练 。 在 深度 学 习 领 域 , 针对 训练 集 的 
每 一 次 完整 迭代 叫 作 一 个 轮 次 (epoch )。 


代码 清单 2-5 ” 拟 合 线性 回归 模型 (参见 CodePen 2-c ) 
(async function() { 
await model.fit (trainTensors.sizeMPB, 





trainTensors.timeSec, 
{epochs: 10}); 
(3 


fit () 方 法 通常 会 运行 很 人 入, 持续 数秒 到 数 分 钟 ,因此 ,此 处 使 用 了 ES2017( ES8 ) 中 的 async 
特性 和 await 特性 ， 这 样 函 数 在 浏览 右 中 运行 时 就 不 会 阻塞 主 UI 线程 的 执行 。JavaScript 中 其 
他 可 能 长 时 间 运 行 的 函数 采用 了 类 似 的 处 理 方式 ,比如 异步 fet ch。 这 里 利用 立即 调用 异步 函数 
表达 式 ( immediately invoked async function expression )。 模 式 来 等 符 fit () 调 用 完成 ， 然 后 继续 
后 续 操作 。 后 续 示 例会 在 后 台 进 行 训练 ， 而 不 是 等 其 完成 ， 前 台 线 程 可 以 同时 执行 其 他 命令 。 

当 模 型 拟 合 完毕 后 , 我 们 目 然 会 想 知 道 它 是 否 有 效 实现 。 这 里 有 一 点 要 特别 注意 ， 那 就 是 用 
于 评估 模型 的 数据 不 能 在 训练 过 程 中 出 现 。 具体 而 言 ， 就 是 将 测试 集 和 训练 集 分 离 ， 避免 用 测试 
集 进行 训练 。 这 一 主题 会 在 本 书 中 反复 出 现 , 也 是 机 需 学 习 工 作 流 程 中 的 重要 组 成 部 分 ， 必 须 加 
以 掌握 。 

模型 的 evaluate () 方 法 会 根据 输入 的 样 例 特 征 和 目标 来 计算 损失 函数 的 仁 。 它 和 fit() 
方法 得 出 的 损失 值 是 一 样 的 ,从 这 一 点 上 看 ， 两 种 方法 很 相似 , 但 svaluate () 方 法 并 不 会 更 新 
模型 的 权重 。 因 此 , 通过 evaluate() 方 法 评 佑 模型 相对 于 测试 集 的 性 能 ,， 可 以 大 致 了 解 模 型 在 
未 来 应 用 程序 中 的 表现 情况 。 


> model.evaluate(testTensors.sizeMB, testTensors.timeSec) .print ();} 









































Tensor 
0.31778740882873535 


可 以 看 到 ， 上 面 测试 集 的 平均 值 (损失 ) 约 为 0.318。 因 为 在 默认 条 件 下 ， 模 型 会 从 一 个 随 
机 初始 状态 开始 训练 ， 所 以 你 会 得 到 一 个 不 同 的 值 。 

也 可 以 说 ,该 模型 的 平均 绝对 误差 ( mean absolute error, MAE ) 刚好 超过 0.3。 这 个 结果 是 好 
是 坏 呢 ? 与 直接 预测 平均 下 载 时 间 等 稼 量 相 比 呢 ? 现在 用 TensorFlow.js 内 置 的 张 量 运 算 函 数 计 
算 该 常量 所 对 应 的 误差 。 首 和 完 ， 用 训练 集 计算 平均 下 载 时 间 : 


> Const avgDelaySec = tf.mean(trainData.timeSec),;} 





> avgDelaySec.print ();} 
Tensor 
0.2950500249862671 


接 下 来 手动 计算 meanAbsoluteError, 即 预 测 值 与 实际 值 的 差 值 的 绝对 值 。 为 外 ， 因为 预 
测 值 有 时 高 于 实际 值 ， 有 时 低 于 实际 值 ， 所 以 这 里 用 tf .sub() 计 算 测 试 目标 和 预测 值 ( 常量 
之 间 的 差 值 ， 然 后 用 tf.abs() 取 差 值 的 绝对 值 。 最 后 用 上 tf.mean () 对 结果 取 平 均值 : 
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> tf.mean(tf.abs (tf.sub(testData.timeSec, 0.295))) .PrInt() ，; 
Tensor 


0.22020000219345093 


言 息 栏 2-1 展示 了 如 何 用 更 简洁 的 链 式 API 执 行 上 述 计算 。 


言 息 栏 2-1 链 式 API 
除了 标准 API 提 供 的 tf 命名 空间 中 的 张 量 函数 ， 绝 大 部 分 张 量 函数 还 可 以 通过 张 量 对 象 
进行 调用 。 因 此 ， 如 果 你 更 喜欢 后 者 ,就 可 以 参考 下 面 的 编码 方式 实现 链 式 调用 。 下面 的 代码 
和 前 面 的 meanAbsoluteError 计算 在 功能 上 是 等 效 的 。 


// 链 式 API 模式 
ee em emul 0 el mcm on 
Te@nsor 

0.22020000219345093 





平均 下 载 时 间 约 为 0.295 秒 ， 对 应 的 误差 更 小 。 也 就 是 说 ， 下 接 预 测 平均 下 载 时 间 比 模型 预 
测 更 为 准确 。 这 意味 看 当前 模型 的 准确 座 低 于 最 简单 的 预测 方法 ! 重型 还 有 改进 空间 吗 ? 当然 ， 
我 们 训练 的 轮 次 还 不 够 多 。 前 面 提 到 ， 在 训练 过 程 中 ， 核 和 偏差 的 值 是 一 步 步 更 新 的 。 在 这 里 ， 
每 个 轮 次 就 是 一 步 ， 参 数值 在 有 限 的 训练 轮 次 〈 步 又 ) 里 可 能 还 没 达 到 最 优点 。 接 下 来 多 训练 几 
个 轮 次 ,再 来 看 看 结 


> model.fit (trainTensors.sizeMB, 人 确保 model .fit() 返 回 的 Promise 对 象 














trainTensors.timeSec, 有 结果 之 后 再 执行 model .evaluate () 
{epochs: 200}); 





> model.evaluate(testTensors.sizeMB, testTensors.timeSec) .print (); 
Tensor 


0.04879039153456688 

现在 好 多 了 ! 看 起 来 之 前 的 模型 是 欠 拟 合 (underfitting ) 的 ， 也 就 是 还 不 够 适应 训练 集 。 现 
在 计算 的 误差 低 于 0.05 秒 , 大 约 是 卫 接 预测 平均 下 载 时 间 的 准确 率 的 4 倍 。 本 书 提供 了 一 些 关 于 
避免 天 拟 合 的 建议 ， 同 时 也 会 介绍 如 何 避 免 过 拟 合 〈overfitting )。 过 拟 合 问题 更 难以 发 现 ， 它 是 
日 模 型 针对 训练 集 调 整 过 多 ， 时 致 不 能 很 好 地 将 训练 规则 谤 化 到 未 曾 见 过 的 数据 上 的 情况 。 


2.1.6 ”用 经 过 训练 的 模型 进行 预测 


太 棒 了 ! 我 们 的 模型 现在 可 以 根据 输入 的 文件 大 小 ,准确 预测 其 下 载 所 需 时 间 。 但 是 如 何 使 
用 它 呢 ? 答案 是 借助 模型 的 predict () 方 法 : 





> const smallFileMB = 1; 

> const bigFileMB = 100;，; 

> const hugeFileMB = 10000; 

> model.predict (tf.tensor2d([[smallrFileMB], [bigFileMB|], 


[hugeFileMB]]1)) .print(); 
Tensor 
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[[0.1373825 |]， 
[7.2438402 |]， 
[717.8896484|]|] 


可 以 看 到 ， 当 下 载 大 小 为 10 000MB 的 文件 时 ， 模 型 预测 大 约 需要 718 秒 。 注 意 ， 训 练 集中 
没有 任何 接近 这 个 大 小 的 数据 样 例 。 一 般 而 言 ， 外 推 (extrapolate ) 远 超 出 训练 集 范 围 的 值 是 非 
第 冒险 的 。 但 对 这 个 简单 示例 而 言 ， 只 要 不 涉及 类 似 内 存 缓冲 、LO 连接 等 复杂 的 问题 ， 模 型 计 
算 的 结 末 还 是 相当 准确 的 。 当 然 ， 如 采 能 收集 更 多 这 个 文件 大 小 范围 内 的 数据 就 更 好 了 。 

此 处 将 输入 的 变量 封 次 成 了 适当 形状 的 张 量 。 代 码 清单 2-3 将 输入 张 量 的 形状 inputShape 
定义 为 [1] ,也 就 是 对 模型 来 说 ,每 个 输入 样 例 都 必须 是 这 个 形状 。 每 次 调用 fit() 和 preqict () 
都 需要 用 到 多 个 样 例 ， 因 此 ， 如 果 要 提供 n 个 样 例 ， 可 以 钱 加 输入 样 例 ， 并 把 它们 封装 到 一 个 输 
人 张 量 中 ， 这 样 它 的 形状 就 是 [n，1]。 如 果 我 们 忘 了 这 些 方法 对 张 量 形状 的 要 求 ， 癌 模型 输入 
了 一 个 形状 不 匹配 的 张 量 ， 就 会 触发 形状 错误 ， 如 下 所 示 : 














> model.predict (tf.tensorld([smallFileMB, bigFileMB, hugerFileMB])) .print().; 
Uncaught Error: Error when checking : expected dense Densel input to have 2 
dimension(s), but got array with shape [3] 


一 定 要 注意 这 种 形状 不 匹配 问题 ， 这 是 一 种 非常 常见 的 错误 ! 
2.1.7 示例 1 小 结 


对 于 这 个 价 单 的 示例 ， 可 以 用 图 表 展 示 模 型 的 训练 结 来 。 对 于 模型 的 输出 (timesec ) 和 输 

入 (sizeMB ), 图 2-4 展示 了 它们 在 训练 阶段 的 4 个 时 刻 形 成 的 函数 关系 , 包括 最 开始 从 10 个 轮 次 

习 得 的 欠 拟 合 模型 ， 到 最 后 从 200 个 轮 次 习 得 的 收 全 模型 。 可 以 看 到 ， 收 敛 模型 和 数据 高 度 拟 合 。 
模型 拟 合 结果 











外 trainData 
全 testData 
me 训练 10 个 轮 次 后 的 模型 
一 一 训练 20 个 轮 次 后 的 模型 
一 ”训练 100 个 轮 次 后 的 模型 
= 训练 200 个 轮 次 后 的 模型 


下 载 所 需 时 间 〈 秒 ) 





文件 大 小 (MB) 
图 2-4 ”线性 模型 和 数据 在 不 同时 刻 的 拟 合 情况 ( 参见 CodePen 2-c ) 
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这 就 是 我 们 的 第 一 个 示例 。 其 中 仅 用 数 行 JavaScript 代码 ， 就 完成 了 构建 、 训 练 到 评估 
TensorFlow.js 模型 的 全 过 程 ( 见 代 码 清单 2-6 )。 下 一 节 将 深入 介绍 model .fit () 方 法 内 部 的 工 
作 原 理 。 


代码 清单 2-6 ” 定义、 训练 、 评 佑 和 预测 模型 








const model = tf.sequential([tf.layers.dense({inputShape: [1], units: 1})]1); 
model.compile({optimizer: 'sgd', loss: 'meanAbsoluteError'}); 
(async () => await model.fit (trainTensors.sizeMB, 





trainTensors.timeSec, 
Lomo OR) (yy 
model .evaluate (testTensors.sizeMB, testTensors.timeSec);} 
model.predict (tf.tensor2d([[7.8]])) .print(); 





2.2 model .fit() 内 部 原理 神 析 : 示例 1 中 的 梯度 下 降 算 法 


2.1 节 中 构建 了 一 个 简单 模型 ， 并 让 它 拟 合 训练 集 。 绪 果 证 明 ， 我 们 可 以 根据 输入 的 文件 大 
小 较为 准确 地 预测 其 下 载 所 需 时 间 。 这 个 神经 网 络 虽 然 不 足以 让 人 印象 深刻 , 但 是 它 和 我 们 将 来 
要 构建 的 更 大 规模 且 更 复杂 的 系统 有 异曲同工 之 妙 。 我 们 发 现 ， 训 练 10 个 轮 次 的 模型 性 能 并 不 
明显 ,但 是 在 增加 到 200 个 轮 次 后 ， 模 型 的 效果 就 有 了 显著 提升 *。 接 下 来 看 在 训练 模型 时 ， 程 
序 执行 了 哪些 操作 。 


2.2.1 直观 理解 梯度 下 降 算 法 优化 
前 面 提 到 ， 从 单单 层 模 型 是 在 拟 合 下 面 的 线性 函数 fF (LmUEys 


output = kernel * input + bias 


这 里 kernel ( 核 ) 和 bias (偏差 ) 是 密集 层 中 的 可 调 参 数 (统称 权重 )， 包 含 模型 从 训练 
集中 习 得 的 规则 。 

最 初 ， 这 些 权重 会 初始 化 成 很 小 的 随机 值 ， 这 步 叫 作 随 机 初始 化 ( random initialization )。 当 
然 , 由 随机 的 核 和 偏差 得 出 的 输出 结果 不 会 太 理 想 。 现 在 调动 你 的 想象 力 , 想象 随 着 参数 取 值 变 
化 , 平均 绝对 误差 会 如 何 随 之 改变 。 不 难 想 象 ， 当 这 个 线性 函数 所 呈现 的 直线 接近 图 2-4 中 的 直 
线 时 ,损失 也 数 的 值 会 较 小 ， 而 当 该 直线 与 图 2-4 中 的 直线 相距 甚 远 时 ， 损 失 郴 数 的 值 会 很 大 。 
这 一 概念 又 叫 作 损失 平面 ( loss surface )， 即 认为 损失 是 关于 可 调 参 数 的 函数 。 

如 图 2-5 所 示 ， 这 个 示例 极其 简单 ， 只 涉及 两 个 可 调 参数 和 一 个 目标 ， 所 以 可 以 用 二 维 等 高 
线 图 来 诠释 损失 平面 的 概念 。 损失 平面 呈 规 则 的 碗 形 , 碗 形 最 底部 就 是 损失 的 全 局 最 小 点 ( global 
minimum )， 代 表 最 好 的 参数 设置 。 通 常 而 言 ， 深 度 学 习 模 型 的 损失 平面 要 远 比 这 个 复杂 。 它 会 
有 远 不 止 两 个 维度 ， 并 且 有 很 多 局 部 极 小 点 (1local minima )， 也 就 是 某 一 范围 内 的 最 小 值 ， 但 不 












































QD 注意， 类 似 这 样 的 简单 线性 模型 存在 简单 、 有 效 的 解析 解 。 即 使 对 于 后 面 介 绍 的 更 复杂 的 模型 ， 这 种 优化 方法 也 
同样 适用 。 
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是 整体 意义 上 的 最 小 值 。 


损失 平面 


l= 


0.05 — 


偏差 


005 一 





图 2-5 由 损失 与 模型 的 可 调 参 数 形 成 的 损失 平面 等 高 线 图 。 可 以 看 到 ， 在 这 个 乌 攀 图 
中 ，{bias: 0.08, kernel: 0.07} (由 x 标记 的 点 ) 是 达到 低 损失 的 理想 点 。 
我 们 很 少 有 机 会 像 现 在 这 样 测 试 所 有 参数 组 合 ， 并 将 结果 绘制 成 乌 欧 图 。 但 如 
果 可 以 实现 ， 那 么 优化 会 非常 容易 : 只 要 选 最 低 损失 对 应 的 参数 组 合 就 好 了 


可 以 看 到 , 损失 平面 是 个 硬 形 , 其 中 最 小 也 是 最 好 的 损失 在 {bias: 0.08, kernel: 0.07} 
附近 ， 这 和 我 们 数据 隐 含 的 直线 斜率 和 截 距 是 吻合 的 : 即使 文件 大 小 无 限 接近 0， 下 载 该 文件 也 
需要 0.1 秒 ， 和 损失 平面 中 的 最 小 偏差 相近 。 模 型 的 随机 初始 化 会 赋予 可 调 参数 随机 值 ， 这 相当 
于 在 等 高 线 图 中 随意 选取 了 一 个 位 置 , 该 位 置 对 应 的 损失 即 初始 损失 。 接 下 来 要 根据 反馈 信和 号 逐 
渐 调 整 参 数 ， 这 一 逐渐 调整 的 过 程 就 是 训练 (training )， 也 就 是 “机 器 学 习 ” 中 的 “学 习 ”。 图 
2-6 展示 了 这 一 训练 循环 (training loop ) 的 各 个 阶段 。 
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有 一 个 权重 为 w 的 模型 














计算 损失 相对 于 w 的 梯 
度 。 根 据 梯 度 对 w 稍 做 
修改 ， 从 而 降低 下 次 预 
济 的 损失 


电 


图 2-6 诠释 训练 循环 的 流程 图 ， 其 中 使 用 梯度 下 降 算 法 来 更 新 模型 


图 2-6 诠 释 了 训练 循环 如 何不 断 重 复 下 面 的 步 又 ， 且 到 获得 理想 的 模型 。 

(1) 抽取 一 个 批 次 ( batch ) 的 训练 样本 x 和 它们 对 应 的 目标 y_true。 批 次 就 是 将 一 些 输入 
样 例 封装 为 一 个 张 量 ， 其 中 样 例 的 数量 叫 作 批 尺 寸 (batch size )。 在 实际 深度 学 习 中 ， 批 尺寸 通 
遂 设 为 2 的 于 次 才 , 比 如 128 或 256。, 将 样 例 作为 批 次 封 疙 到 一 起 可 以 发 挥 GPU 的 并 行 计算 能 
让 梯度 计算 更 加 稳定 (更 多 细节 参见 2.2.2 记 ) 

(2) 将 x 输入 模型 来 获取 预测 值 y_pred， 这 一 步 叫 作 正 向 传播 (forward pass )。 

(3) 计算 该 批 次 在 模型 上 的 损失 ， 也 就 是 度量 y_true 和 y_pred 之 间 的 差距 。 前 面 提 到 ， 
可 以 在 调用 model .compile() 方 法 时 定义 损失 也 数 。 

(4) 更 新 模型 上 的 所 有 权重 ( 参数 ), 实现 小 幅 降 低 该 批 次 的 损失 ,在 调用 model .compile() 
方法 时 还 会 定义 优化 带 ， 它 会 决定 关于 每 个 权重 的 具体 更 新 细 方 。 

如 果 你 能 在 每 一 步 上 降低 损失 ,最 终 就 会 得 到 关于 训练 集 的 低 损失 的 模型 。 现 在 , 模型 已 经 
“学 会 ”如 何 将 输入 映射 到 正确 的 目标 上 。 从 整体 上 来 看 ， 这 一 结果 就 像 魔法 一 样 ， 但 如 果 将 训 
练 过 程 分 解 成 上 述 基础 步骤 ， 那 么 一 切 就 会 网 然 开 表 。 

在 上 述 步 桑 中， 唯一 有 挑战 的 是 第 (4) 步 ， 即 如 何 决定 增加 哪些 权重 、 减 少 哪些 权重 ， 以 及 
增 减 的 幅度 。 我 们 可 以 只 是 育 目地 尝试 并 验证 ， 然 后 接受 能 够 减少 损失 的 权重 更 新 。 对 于 当前 
这 样 的 简单 问题 ， 这 种 算法 即使 有 效 ， 也 注定 是 非常 缓慢 的 。 对 于 更 复杂 的 问题 ， 比 如 优化 
上 百 万 个 权重 ， 这 时 随机 修改 一 个 权重 并 得 到 有 效 结果 ， 这 种 概 座 可 以 小 到 忽略 不 计 。 但 有 一 
种 更 好 的 方法 ， 那 就 是 利用 模型 中 所 有 运算 是 “可 微 ” 的 这 一 特性 ， 计 算 损失 关于 模型 参数 的 
梯度 ( gradient )。 

什么 是 梯度 呢 ? 无 顷 用 数学 理论 精确 地 定义 它 一 一 这 需要 一 定 的 微 积分 理论 基础 , 但 可 以 像 
下 面 这 样 直 观 地 描述 它 。 


梯度 就 是 一 个 修改 权重 的 方向 , 在 这 个 方向 上 ， 由 于 细微 修改 权重 而 导致 损失 增加 
的 速率 ， 会 比 其 他 任何 方向 上 的 修改 所 导致 的 损失 增加 的 速率 都 大 。 






将 新 批 次 的 数据 x 输入 模 
型 ， 获 得 预测 值 y_pred 














计算 预测 值 y_pred 和 实 
际 值 y_true 之 间 的 损失 
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尽管 上 述 定义 并 没有 使 用 过 于 技术 化 的 表达 ， 但 是 信息 量 依然 很 大 ， 现 在 来 逐步 训 析 它 。 

口 首先 ， 梯 度 是 一 个 癌 量 ， 它 和 权重 包含 同样 数量 的 元 厅 ， 代 表 由 所 有 权重 形成 的 空间 中 
的 一 个 方 回 。 如 果 模 型 的 权重 和 之 前 的 示例 一 样 ， 由 两 个 数字 组 成 ， 那 么 梯度 就 是 一 个 
二 维 呵 量 。 深 度 学 习 模 型 通常 有 上 二 其 至 上 百 万 个 维度 同样， 这 些 模型 的 梯度 也 拥有 
上 千 个 甚至 上 百 万 个 元 系 的 问 量 ( 方 癌 )。 

口 其 次 ， 模 型 的 梯度 取决 于 当前 权重 。 换 言 之 ， 不同 权重 会 导致 不 同 的 梯度 。 这 一 点 在 图 
2-5 中 非常 明显 ， 其 中 能 够 最 快 降低 损失 的 方向 取决 于 当前 在 损失 平面 上 的 位 置 。 当 处 于 
损失 平面 的 左边 缘 时 ， 回 右 移动 降低 损失 最 快 ; 当 处 于 损失 平面 的 底部 时 ， 向 上 移动 降 
低 损 失 最 快 ， 以 此 类 推 。 

口 最 后 ， 从 数学 意义 上 来 看 ， 棉 度 是 损失 曙 数 增加 的 方向 。 当 然 ， 训 练 神 经 网 络 旨 在 降低 

损失 ， 这 就 是 形 与 梯度 相反 的 方向 改变 权重 的 原因 。 

可 以 用 登山 的 情景 来 类 比 。 假设 我 们 的 目标 是 到 达 海 拔 最 低 的 地 市 ,在 行进 过 程 中 ， 可 以 霄 
由 东西 方向 和 再 北方 癌 构 成 的 坐标 系 中 的 任意 方 回 移动 , 去 往 不 同 高 度 的 位 置 。 可 以 将 上 述 第 一 
点 理解 为 ， 相 较 当 前 坡度 ， 当 前 位 置 的 梯度 就 是 上 坡 最 陡 的 那个 方向 。 第 二 点 就 比较 明显 了 , 它 
的 意思 是 哪个 上 坡 方 回 最 陡 取 决 于 当前 的 位 置 。 最 后 一 点 是 说 ， 如 果 想 尽快 到 达 海 拔 低 的 地 市 ， 
应 该 参与 梯度 相反 的 方向 前 进 。 

这 一 训练 过 程 生动 形象 地 称 为 梯度 下 降 算 法 (gradient descent )。 前 面 代 码 清单 2-4 中 使 用 
optimizer: 'sgd' 配 置 模型 优化 需 的 参数 ， 并 提 到 sga 的 全 称 是 随机 梯度 下 降 算 法 ， 至 此 ， 
随机 梯度 下 降 算 法 中 的 “梯度 下 降 ” 部 分 应 该 已 经 很 清楚 了 。“ 随 机 ” 指 的 是 为 了 提高 计算 效率 ， 
在 每 个 梯度 下 降 环节 对 训练 集 进 行 随机 采样 , 每 次 计算 仅 使 用 其 中 部 分 而 不 是 所 有 数据 。 随 机 梯 
度 下 降 算 法 其 实 就 是 为 了 提高 计算 效率 ， 而 相应 地 修改 梯度 下 降 。 

以 上 内 容 帮助 我 们 更 为 清晰 地 理解 了 模型 优化 的 原理 , 并 且 在 介绍 计算 下 载 所 需 时 间 的 模型 
时 ， 人 解释 了 为 什么 用 200 个 轮 次 比 用 10 个 轮 次 可 以 得 到 更 好 的 效果 。 

图 2-7 展示 了 梯度 下 降 算 法 如 何在 损失 平面 上 找到 一 条 降低 损失 的 路 径 ， 直 到 得 到 几乎 和 训 
练 集 完 美 拟 合 的 权重 。 其 中 ， 图 2-7a 展示 了 与 之 前 一 样 的 损失 平面 ， 只 不 过 这 里 进行 了 放大 ， 
并 且 上 面 琶 加 了 梯度 下 降 算 法 探索 出 的 路 径 。 这 条 路 径 的 起 点 对 应 随机 初始 化 阶段 ,初始 化 结 
就 是 图 像 中 的 一 个 随机 位 置 。 因 为 我 们 不 可 能 提前 知道 最 优点 的 位 置 ， 所 以 这 种 做 法 非常 必要 1 
另外 , 路 径 上 还 标注 了 其 他 儿 个 值得 关注 的 点 ,揭示 了 这 几 个 点 与 到 拟 合 和 恰好 拟 合 的 模型 的 天 
系 。 图 2-7b 展示 了 模型 损失 和 训练 轮 次 的 图 数 关 系 ， 同 时 也 标 出 了 值得 注意 的 点 。 图 2-7c 展示 
了 和 图 2-7b 中 标 出 的 训练 轮 次 所 对 应 的 模型 。 

这 个 简单 的 线性 回归 模型 可 以 实现 梯度 下 降 过 程 的 可 视 化 , 也 是 本 书 唯一 具有 这 样 的 功能 的 
模型 。 尽 管 后 面 更 为 复杂 的 模型 很 难 这 样 可 视 化 , 但 要 记 住 , 它们 使 用 的 梯度 下 降 算法 本 质 是 一 
样 的 : 它们 只 是 沿 着 坡度 最 陡 的 方 辐 , 一 步 一 步 地 从 复杂 的 高 维度 平面 往 下 走 ， 直 到 找到 一 个 损 
失 非 常 低 的 地 方 。 
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模型 拟 合 结果 


@ trainData 
a testData 
----- 训练 10 个 轮 次 后 的 模型 
~ ~ 训练 20 个 轮 次 后 的 模型 
一 “训练 100 个 轮 次 后 的 模型 
we 训练 200 个 轮 次 后 的 模型 


下 载 所 需 时 间 〈 秒 ) 





文件 大 小 (MB) 
图 2-7 (a) 通过 梯度 下 降 算法 , 在 200 个 轮 次 中 逐渐 调整 权重 ,最 终 得 到 局 部 最 优 的 参数 设 














定 。 图 中 标 出 了 4 处 权重 , 位 置 分 别 是 起 始点 、 训 练 20 个 轮 次 后 、 训 练 100 个 轮 次 
后 和 训练 200 个 轮 次 后 。(b) 损 失 关 于 轮 次 的 函数 关系 图 ， 并 标 有 与 训练 轮 次 相对 应 
的 损失 。(c) timeSec 和 sizeMB 的 函数 关系 图 , 其 中 展示 了 4 个 训练 阶段 对 应 的 拟 
合 模 型 ， 即 训练 10 个 轮 次 后 、 训 练 20 个 轮 次 后 、 训 练 100 个 轮 次 后 以 及 训练 200 
个 轮 次 后 。 这 里 重复 展示 该 图 有 助 于 比较 不 同 损失 平面 位 置 和 训练 好 的 模型 的 对 应 
关系 (参见 CodePen 2-d ) 


这 里 最 开始 使 用 的 是 由 默认 学 习 率 ( default learning rate ) 决定 的 默认 步 长 (step size )。 但 对 
于 这 些 有 限 的 数据 ， 仅 仅 训 练 10 个 轮 次 并 不 能 实现 到 达 最 优点 ， 训 练 200 个 轮 次 则 恰好 合适 。 
那么 , 如 何 选择 学 习 率 ?” 如何 判 断 模 型 是 否 已 训练 完成 ?本 书后 面 会 陆续 介绍 关于 这 些 方面 的 一 
些 有 用 的 经 验 法 则 ， 但 它们 并 不 是 “万 灵 药 ”。 如 果 使 用 的 学 习 率 过 小 ， 就 会 导致 每 次 的 步 长 过 

















46 第 2 章 TensorFlow.js 入门 : 从 简单 的 线性 回归 开始 





小 ， 从 而 无 法 在 可 接受 时 间 内 得 到 最 优 的 参数 。 与 此 相反 ， 如 果 使 用 的 学 习 率 过 大 ， 其 对 应 的 步 
长 就 会 过 大 ,可 能 导致 完全 跳 过 最 小 点 ,由 此 得 到 的 损失 可 能 会 高 于 起 始点 。 这 可 能 会 进一步 导 
致 模型 的 参数 状 狂 地 在 最 佳 点 附近 振荡 ， 而 不 是 直接 快速 获取 它 。 图 2-8 展示 了 梯度 步 长 过 大 的 
情况 。 在 更 极端 的 情况 下 ， 过 大 的 学 习 率 会 导致 参数 值 发 散 到 无 穷 大 ， 最终 使 权重 变 为 NaN， 即 
“ 非 数 学 值 ”( not a number )， 这 会 完全 毁 挥 你 的 模型 。 


学 习 率 过 高 导致 参数 设 定 跳 过 损失 最 低 点 ， 从 而 造成 更 大 误差 
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图 2-8 ” 当 学 习 率 过 高 时 ， 梯 度 步 长 也 会 过 大 ， 从 而 导致 新 参数 性 能 劣 于 旧 参 





数 。 这 可 能 还 会 使 参数 狗 狂 地 振荡 或 产生 其 他 不 稳定 性 ， 造 成 参数 变 
得 无 穷 大 或 出 现 NaN。 只 需 将 之 前 CodePen 中 代码 里 的 学 习 率 增加 到 
0.5， 央 能 观察 到 这 种 现象 


2.2.2 探索 柳 度 下 降 算 法 的 内 部 原理 : 反 向 传播 算法 


2.2.1 市 介绍 了 权重 更 新 的 步 长 如 何 影 响 梯 度 下 降 算 法 的 过 程 。 但 是 ， 目 前 还 没有 介绍 如 何 
计算 权重 更 新 的 方向 ( direction )。 对 神经 网 络 的 学 习 过 程 来 说 ,更 新 方 品 至 关 重 要 。 它们 是 通 过 
计算 损失 相对 于 权重 的 梯度 而 得 到 的 ， 计 算 所 使 用 的 算法 叫 作 反问 传播 算法 。 反 向 传播 算法 
( backpropagation ) 发 明 于 20 世纪 60 年 代 ， 是 神经 网 络 和 族 度 学 习 领 域 的 丙 基 算法 之 一 。 注 意 ， 
本 节 主 要 面向 希望 理解 反问 传播 机 制 的 人 群 , 如果 你 只 是 想 利 用 TensorFlow.js 来 在 模型 中 应 用 反 
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向 传播 算法 ， 那么 可 以 跳 过 本 节 ， 直 接 阅 读 第 2.3 节 ， 这 些 机 制 完 整地 封装 在 tf.Model.fit () 
的 API 中 。 本 节 将 使 用 一 个 简单 示例 ， 展 示 反 向 传播 算法 的 工作 原理 。 
考虑 下 面 这 个 简单 的 线性 模型 : 


y' = V * x 


这 里 x 是 输入 特征 ,y' 是 输出 的 预测 值 ,v 是 模型 在 反 向 传播 过 程 中 唯一 需要 被 更 新 的 权重 参数 。 
假设 使 用 平方 误差 ( squared error ) 作为 损失 函数 ,那么 loss (损失 )、v、x 和 Yy《〈 真 正 的 目标 
值 ) 之 间 的 关系 可 以 表示 为 


loss = Squarel(ly' - y) = square(Vv * x - Y) 


现在 假设 以 下 具体 的 值 : 上 述 公 式 的 两 个 输入 分 别 为 x = 2 和 y = 5， 权 重 为 vw = 0。 这 
样 一 来 ， 计 算出 的 损失 值 就 是 25， 图 2-9 展示 了 计算 的 具体 步骤 。 图 2-9a 中 的 每 个 直角 和 矩形 块 
代表 一 个 输入 (x 和 yy)。 每 个 圆 角 和 矩形 块 代表 一 个 运算 。 其 中 共有 3 个 运算 ， 我 们 将 可 调 参数 v 
和 第 一 个 运算 相连 的 边 ， 以 及 连接 运算 矩形 块 的 两 条 边 分 别 标记 为 e,、e, 和 @,。 




















图 2-9 通过 只 有 单个 可 调 权 重 〈(v ) 的 简单 线性 模型 展示 反 站 传播 算法 。(a) 对 模型 进 





行 正 向 传播 ， 即 根据 权重 (v) 和 输入 (x 和 y ) 计算 模型 损失 值 。(b) 对 模型 
进行 反问 传播 ， 即 在 损失 端 到 权重 并 中 ， 逐 步 计 算 损 失 相 对 于 v 的 梯度 


反 回 传播 算法 中 的 一 个 重要 步 又 就 是 计算 下 面 这 个 数值 : 
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假设 其 他 部 分 (在 此 例 中 是 广 和 Y ) 保持 不 变 ， 那 么 每 增加 一 个 单位 ， 损 失 值 会 
发 生 什 么 变化 ? 


这 个 数值 就 是 损失 相对 于 v 的 梯度 。 为 什么 要 计算 梯度 呢 ? 这 是 因为 一 旦 获得 了 梯度 ,就 可 
以 朝 与 梯度 相反 的 方向 修改 v， 从 而 降低 损失 值 。 注 意 ，x 或 y 不 需要 更 新 ， 它 们 是 固定 的 输入 
数据 ， 因 此 无 须 计算 损失 相对 于 x 或 y 的 梯度 。 

如 图 2-9 所 示 ， 梯 度 计算 始 于 损失 值 ， 然 后 瑚 变量 v 逐步 反 回 计算 ,“ 反 回 传 播 算法 ” 正 是 

因为 这 个 计算 顺序 而 得 名 。 下 面 介绍 了 整个 计算 过 程 ， 其 中 每 一 步 对 应 图 中 的 一 个 箭头 。 

口 在 标记 为 1oss 的 边 上 , 将 初始 梯度 值 设 为 1。 它 的 意义 很 简单 : “1oss 每 增加 1 个 单位 ， 
其 自身 会 对 应 增加 1 个 单位 。 

口 在 标记 为 e, 的 边 上 ,计算 损失 相对 于 e, 当前 值 的 单位 变化 的 梯度 。 下 一 步 运算 是 计算 平 
方 数 ， 运 用 基本 的 微 积分 知识 ， 可 以 得 出 (e,) 相对 于 e, 的 导数 是 2 * e,， 所 以 此 处 的 
梯度 是 2 * 5 = -10。 将 结果 -10 乘 以 之 前 的 梯度 ， 就 可 以 得 出 e, 这 条 边 的 梯度 ， 即 为 
-10 * 1 = -10。 它 意味 着 每 当 e, 增 加 1， 那么 损失 就 会 增加 -10 (降低 10 )。 你 可 能 已 
经 发 现 了 一 个 规律 ， 就 是 当 计 算 不 同位 置 上 的 损失 梯度 时 ， 可 以 通过 让 前 一 个 位 置 上 的 
梯度 乘 以 当前 位 置 计算 的 梯度 来 推 亲 。 这 个 规律 有 时 称 作 链 式 法 则 〈 chain rule )。 

口 在 标记 为 e, 的 边 上 , 计算 es 相对 于 e., 的 梯度 。 因 为 这 是 一 个 简单 的 加 法 运算 ， 所 以 梯度 
为 1, 无 须 考 虑 其 他 输入 值 ( -y )。 将 这 个 1 与 e., 的 梯度 相 乘 , 就 得 到 了 e. 这 条 边 的 梯度 ， 
即 -10。 

口 在 标记 为 se 的 边 上 ， 计 算 es 相对 于 e, 的 梯度 。 这 里 是 x 和 之 间 的 乘法 运算 ， 也 就 是 
x * VvV。 所 以 ，e, 相 对 于 e 的 梯度 (相对 于 v 的 梯度 ) 是 x， 也 就 是 2。 将 2 乘 以 e, 的 
梯度 ， 得 到 最 终 的 梯度 : 2 * -10 = -20。 

现在 已 经 获得 了 损失 相对 于 v 的 梯度 ， 即 -20。 为 了 应 用 梯度 下 降 算法 ， 需 要 让 梯度 的 相反 

数 乘 以 学 习 率 。 假 设 学 习 率 为 0.01， 那 么 新 的 梯度 将 这 样 计算 : 


(20) UL S02 


这 就 是 当前 训练 步骤 针对 v 所 做 的 更 新 : 


VV = 0+0.2 = 0.2 


可 以 看 到 ， 因 为 等 拟 合 的 限 数 是 yt = v * x， 而 且 已 知 x = 2、y = 5， 所 以 的 理论 最 
优 值 是 5 / 2 = 2.5。 在 经 过 一 段 训练 后 ，v 的 值 从 0 变 为 0.2。 也 就 是 说 ， 权 重 v 较 初 始 值 更 
接近 理想 值 了 。 如 果 继 续 使 用 和 上 面相 同 的 反 向 传播 算法 更 新 权重 , 权重 终 将 逐渐 接近 理论 最 优 
值 (假设 训练 集中 没有 噪声 )。 

为 了 方便 理解 ， 之 前 的 示例 设置 得 很 人 镜 单 。 尺 管 示例 展现 了 反问 传播 算法 的 精髓 , 但 是 在 实 
际 的 神经 网 络 训 练 中 ， 其 使 用 的 反 向 传播 算法 在 下 列 这 些 方面 会 有 所 不 同 。 

口 实际 训练 中 通常 涉及 多 个 输入 示例 的 批 处 理 ， 而 不 只 是 提供 简单 的 训练 示例 ， 如 本 例 中 

的 x = 2 和 y = 5。 用 来 推导 梯度 的 损失 值 是 所 有 单个 示例 的 损失 值 的 算术 平均 值 。 
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口 需要 更 新 的 变量 通常 包含 更 多 的 元 杂 。 因 此 ， 我 们 需要 经 党 进行 算 阵 微 积 分 计算 ， 而 不 
是 和 之 前 一 样 进行 傈 单 的 蛙 变 量 求 导 。 

口 通 弟 涉及 多 个 这 量 而 不 是 单个 变量 的 梯度 计算 。 图 2-10 展示 了 包含 两 个 竺 优化 变量 的 较 
复杂 线性 模型 。 除 了 k, 模型 y， = k * x + b 还 有 额外 的 偏差 项 : bp。 此 处 需要 计算 两 
个 梯度 , 分 别针 对 k 和 pb。 这 两 个 梯度 的 反问 传播 路 径 虱 始 于 损失 端 。 它们 会 经 过 一 些 相 
同 的 边 ， 然 后 分 又 ， 形 成 一 个 类 似 树 的 结构 。 














) 
) 


图 2-10 ”从 损失 端 向 两 个 可 更 新 的 权重 (k 和 ) 进行 反 向 传播 算法 的 示意 图 


ETT 





这 一 节 以 直观 的 方式 介绍 反问 传播 算法 。 如 果 你 想 更 深入 地 了 解 反 问 传 播 算 法 的 数学 理论 和 
计算 原理 ， 参 见 信 息 栏 2-2 中 的 推荐 资源 。 

现在 你 应 该 大 致 了 解 了 模型 拟 合 数据 这 一 过 程 。 现 在 暂时 放下 预测 下 载 所 需 时 间 这 个 问题 ， 
转 而 利用 TensorFlow.js 来 解 诀 另 一 个 更 具 挑 战 性 的 问题 。 下 一 节 将 建立 一 个 模型 ,从 而 同时 利用 
多 个 输入 特征 准确 预测 房价 。 














言 息 栏 2-2 ”关于 梯度 下 降 算 法 和 反 向 传播 算法 的 拓展 

神经 网 络 优化 背后 的 微 积分 理论 无 疑 非常 有 趣 ， 可 以 让 人 了 解 这 些 算 法 背后 的 工作 原理 。 
但 是 , 除了 一 些 基本 知识 , 其 他 更 深入 的 理论 对 机 器 学 习 实 践 者 而 言 并 不 是 必要 条 件 。 这 就 好 
比 TCP/IP,， 了解 其 复杂 性 固然 是 有 益 的 , 但 对 构建 现代 Web 应 用 程序 来 说 , 这 并 不 是 必需 的 。 

对 于 那些 希望 进一步 了 解 基于 梯度 的 神经 网 络 优化 方面 信息 的 读者 ,可 以 继续 探索 下 面 这 
些 优 秀 资源 。 

口 用 可 滑动 的 单 页 应 用 演示 反 向 传播 算法 原理 。 

口 斯坦 福 大 学 CS231 课程 第 4 课 ， 关 于 反 向 传播 算法 的 课堂 笔记 ”。 

口 Andrej Karpathy 发 表 的 博客 文章 “Hacker’s Guide to Neural Nets”。 


人 搜索 “CS231ln: Convolutional Neural Networks for Visual Recognition”， 了 解 更 多 信息 。 
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2.3 示例 2: 涉及 多 个 输入 特征 的 线性 回归 


第 一 个 示例 只 使 用 了 一 个 输入 特征 sizeMB 来 预测 目标 timeSecs 但 更 为 常见 的 场景 是 ， 








问题 涉及 多 个 输入 特征 ,并 且 事 匈 不 知 直 其 中 哪些 预测 能 力 最 强 , 哪些 只 是 和 目标 有 松散 的 关联 ， 
这 时 要 同时 使 用 所 有 的 特征 , 让 算法 目 动 分 析出 输入 特征 与 目标 的 关联 性 。 接 下 来 即将 应 对 这 一 
较 复 杂 的 挑战 。 


2.3. 








本 节 介 绍 以 下 4 个 方面 的 内 容 。 

口 构建 能 接收 并 学 习 多 个 输入 特征 的 模型 。 

口 使 用 Yarn 、Git 和 标准 的 JavaScript 项目 工程 化 实践 ， 来 构建 并 运行 拥有 机 酉 学 习 能 力 的 
Web 应 用 程序 。 

口 实现 数据 标准 化 ， 让 学 习 过 程 更 稳定 。 

口 训 悉 使 用 model .fit () 回 调子 数 ， 实 现在 训练 中 更 新 Web 中 的 UI。 


1 波士顿 房价 数据 集 
波士顿 房价 数据 集 ? 统 计 的 是 有 关 20 世纪 70 年 代 未 波士顿 市 及 其 周边 地 区 500 个 房产 成 交 














记录 的 相关 信息 。 数 十 年 来 , 它 一 直人 补 用 作 统 计 学 入 门 与 机 各 学 习 的 标准 数据 集 。 该 数据 集中 的 


每 条 独立 记录 虱 包 含 对 波士顿 特定 地 区 的 定量 描述 , 涉及 房屋 平方 米 数 、 到 最 近 的 高 速 公 路 的 距 


离 、 周 边 景观 每 方面 。 表 2-1 按 顺 序 展示 了 其 中 的 所 有 特征 以 及 每 个 特征 的 平均 值 。 


BT 





表 2-1 波士顿 房价 数据 集中 的 特征 














索引 特征 字段 描述 平均 值 ”数值 范围 (最 大 值 - 最 小 值 ) 
0 CRIM 城镇 人 均 犯 罪 率 3.62 88.9 
1 ZN 住宅 用 地 超过 2323 平方 米 的 比例 11.4 100 
2 INDUS 城镇 非 零售 商业 用 地 〈 工 业 用 地 ) 比例 11.2 
3 CHAS 是 否 在 查尔斯 河 劳 (如果 是 , 则 记 为 1; 否则 记 为 0) 0.0694 1 
4 NOX 一 氧化 毛 浓 度 (每 1000 万 份 ) 0.555 0.49 
5 RM 住宅 平均 房间 数 6.28 32 
6 AGE 1940 年 以 前 建成 的 自 住 房 比例 68.6 97.1 
7 DIS 到 波士顿 5 个 就 业 中 心 区 域 的 加 权 距 离 3.80 11.0 
8 RAD 进出 城镇 主干 道 易 达 度 指数 9.55 23.0 
9 TAX 1 万 美元 地 产 所 交 税 率 408 524.0 
10 ”PTRATIO ”城镇 师 生 比例 18.5 9.40 
11 LSTAT 未 接受 高 中 教育 的 已 就 业 男 性 比例 12.7 36.2 
12 “MEDV 日 住房 价值 中 位 数 ， 以 每 千 美 元 计 22.5 45 


中 也 就 是 Boston Housing Prices dataset ,参见 David Harrison 和 Daniel Rubinfeld 发 表 的 “Hedonic Housing Prices and the 


Demand for Clean Air” 。 


2.3 示例 2 涉及 多 个 输入 特征 的 线性 回归 $1 





这 一 他 旨 在 根据 已 有 的 特征 数据 ,， 即 周边 地 区 房产 相关 信息 , 将 它们 作为 输入 来 构建 、 训 练 
以 及 评 全 机 各 学 习 系 统 ， 从 而 计算 小 区 日 住房 价值 中 位 数 ( MEDYV )。 可 以 把 它 想象 为 利用 周边 
地 区 的 可 量化 数据 ， 计 算 某 地 区 房地产 价格 的 系统 。 





2.3.2 ”从 GitHub 获取 并 运行 波士顿 房价 预测 项 目 


与 示例 1 相 比 ， 本 问题 更 为 复杂 ， 并 日 涉及 更 多 不 同 的 元 素 ， 这 里 和 耻 接 提供 了 GitHub 上 已 
经 写 好 的 可 用 代码 仓库 , 然后 基于 它 逐 步 讲 解 。 如 果 你 已 经 非常 熟悉 Git 版 本 控制 工具 和 npm 或 
Yarn 这 样 的 包 管 理工 具 ， 那 么 只 需 快 速 略 读 这 一 方 。 信 息 柱 2-3 提供 了 更 多 关于 JavaScript 基本 
项 目 结 构 的 介绍 。 

这 里 先 将 GitHub 上 的 代码 仓库 克隆 到 本 地 *， 获 得 本 项 目 所 需 的 HIML 、JavaScript 以 及 其 
他 配置 文件 。CodePen 平 台 上 提供 了 一 些 特别 人 简单 的 示例 程序 ， 除 此 之 外 ， 本 书 其 他 示例 程序 都 
集中 放置 在 两 个 GitHub 仓库 中 , 分 别名 为 tensorflow/tfjs-examples 和 tensorflow/tfjs-models, 每 个 
仓库 都 以 文件 夹 为 单位 进行 区 分 。 运行 下 面 的 命令 将 代码 仓库 克隆 到 本 地 , 然后 进入 波士顿 房价 
预测 项 目 : 


git clone https://github.com/tensorflow/tfjs-examples.git 























cd tfjs-examples/boston-housing 


言 息 栏 2-3 ”本 书 示例 代码 使 用 的 基本 JavaScript 项 目 结构 

本 书 示例 代码 使 用 的 标准 项 目 结构 由 以 下 3 类 重要 文件 构成 。 第 1 类 文件 是 HTML, 这 里 
使 用 的 HTML 文件 非常 简短 ， 主 要 充当 其 他 模块 的 容器 。 在 通常 情况 下 ， 整 个 项 目 只 有 一 个 
名 为 index.html 的 HIML 文件 ， 其 中 包含 几 个 div 标签 ， 也许 是 几 个 UI 元 素 ; 还 有 一 个 源 标 
签 ， 用 来 引入 JavaScript 代码， 比如 index.js。 

第 2 类 文件 是 JavaScript 代码 。 这 种 代码 通 第 会 进行 模块 化 ， 分 成 数 个 独立 的 文件 ， 来 增 
强 可 读 性 并 保持 良好 的 代码 风格 。 对 波士顿 房价 预测 项 目 而 言 ， 负 责 更 新 UI 元 素 的 代码 都 在 
ui.js 中 ， 负 责 下载 数 据 的 代码 都 在 data.js 中 ， 这 两 个 文件 都 可 以 通过 index.js 中 的 import 语 
名 来 引用 。 

第 3 类 文件 就 是 存储 元 数据 的 package.json 文件 ， 它 是 npm 包 管理 工具 要 求 的 必 备 文件 。 
如 果 你 尚未 使 用 npm 或 Yarn， 那 么 推荐 阅读 npm 快速 入 门 文档 > ， 有 助 于 熟练 地 构建 和 运行 
示例 代码 。 这 里 将 使 用 Yarn 作为 包 管 理 器 (参见 Yarn 网 站 )， 当 然 ， 如 果 你 更 喜欢 npm， 完 
全 可 以 使 用 npm 来 替换 Yarn。 

在 代 夯 全 库 中 国 特 别 备 意 双人 各 过 六 件 和 

口 index.html: 位 于 根 目 录 的 HTML 文件 ， 负 责 创建 DOM 并 引入 JavaScript 脚本 。 


@ 本 书 中 的 示例 程序 都 是 开源 的 ， 可 以 在 GitHub 和 CodePen 两 个 平台 上 获取 。 另 外 ，GitHub 平台 提供 了 一 个 非常 
好 的 教程 ,在 GitHub Docs 界面 搜索 “Set up Git” 即 可 浏览 Git 相关 工具 的 使 用 方法 。 如 果 发 现 其 中 代码 有 任何 
错误 ,或 者 希望 参与 社区 互动 ， 欢 迎 使 用 GitHub 中 的 pull request 功能 。 

@) 打开 docs.npmjs 网 站 的 About npm 页 面 即 可 阅读 。 
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口 index.js: 位 于 根 目 录 的 JavaScript 文件 ， 负 责 加 载 数据 、 定 义 模 型 并 训练 循环 ， 以 及 更 
新 UI 元 素 。 
口 data.js: 下 载 和 读 取 波士顿 房价 数据 集 所 需 的 数据 结构 与 方法 。 
口 ui.js: 将 UI 元 素 与 行为 绑 定 的 UI 事件 监听 器 ， 并 配置 图 表 。 
口 normalization.js: 数值 计算 的 相关 函数 ， 比 如 从 数据 中 减 去 数据 均值 的 函数 。 
口 package.json: 标准 的 npm 包 定 义 文 件 ， 描 述 构 建 和 运行 本 项 目 所 需 的 依赖 (例如 
TensorFlow.js )。 
注意 ,这 里 并 没有 按照 标准 做 法 将 HTML 文件 和 JavaScript 文件 按 文 件 类 型 放 入 不 同 的 子 
文件 来。 对 于 更 大 的 项 目 , 这 种 标准 做 法 可 能 是 最 佳 实践 , 但 是 对 于 本 书 使 用 的 较 小 的 示例 程 
序 ， 即 tensorflow/tfjs-examples 仓库 中 的 示例 而 言 ， 这 会 导致 文件 间 的 关系 更 为 模糊 。 


使 用 以 下 Yarmn 命令 运行 示例 程序 : 


yarn && yarn watch 


这 会 在 浏览 器 中 打开 一 个 新 标签 页 ， 指向 localhost 上 的 一 个 端口 ， 然 后 在 该 端口 运行 示例 
程序 。 如 果 浏 览 器 没有 自动 打开 标签 页 ， 可 以 在 命令 行 中 找到 对 应 的 URL， 然 后 在 浏 览 融 中 打开 。 
单 击 “Train Linear Regressor” 按 钮 可 以 触发 构建 线性 模型 的 限 数 ， 使 其 拟 合 波士顿 房价 数据 。 
随后 ， 每 轮 次 对 应 的 训练 集 和 测试 集 上 的 损失 会 以 动态 图 表 的 形式 在 屏幕 上 显示 ， 如 图 2-11 所 示 。 
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最 终 训 练 集 损失 : 21.9864 
最 终 验证 集 损失 : 31.1396 
测试 集 损 失 : 25.3206 
基准 损失 (meanSsduareError) 为 85.58 


图 2-11 区 S-examples 中 的 波士顿 房价 线性 回归 示例 
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本 节余 下 部 分 会 逐步 讲解 波士顿 房价 线性 回归 示例 ， 即 刚刚 打开 的 Web 应 用 程序 示例 的 构 
建 重 点 。 首 先 ， 介 绍 如 何 收集 并 处 理 数 据 ， 为 使 用 TensorFlow.js 做 准备 ; 然后 ， 重 点 介绍 构建 、 
训练 和 评估 模型 的 过 程 ; 最 后 ， 展 示 如 何在 网 页 上 使 用 该 模型 进行 实时 预测 。 


2.3.3” 读 取 波 士 顿 房价 数据 


在 示例 1 中 , 我 们 将 数据 人 硬 编 码 为 JavaScript 数组 并 用 tf .tensor2d 国 数 将 它 转换 为 张 量 。 
对 非常 小 的 示例 程序 而 言 ， 便 编码 是 不 错 的 解决 办 法 , 但 这 显然 不 能 推广 到 更 大 的 应 用 程序 。 通 
各 JavaScript 开发 者 需要 通过 URL (可 能 是 本 地 URL ) 获取 数据 ， 这 些 数据 以 序列 化 的 格式 进行 
存储 。 比 如 ， 可 以 从 谷歌 云 平台 地 址 免费 获取 以 CSV 格式 存储 的 波士顿 房价 数据 *。 这 些 房价 数 
据 预 完 将 样本 随机 分 配 为 训练 集 和 测试 集 ， 其 中 训练 集约 占 三 分 之 二 , 测试 集 部 分 单独 放置 ， 专 
门 用 于 评 佑 训练 好 的 模型 。 此 外 , 无 论 是 训练 集 还 是 测试 集 ， 目 标 特 征 都 已 从 其 他 特征 中 分 离 出 
来 ,， 划 入 了 CSV 文 件 。 表 2-2 展示 了 4 个 CSV 文件 的 命名 情况 。 


表 2-2 根据 波士顿 房价 数据 集 划 分 以 及 内 容 性 质 归 类 的 文件 名 








特征 〈12 个 数值 ) 目标 〈1 个 数值 ) 
训练 集 和 测试 集 的 划分 训练 集 train-data.csv train-target.csv 
测试 集 test-data.csv test-target.csv 





为 了 在 应 用 程序 中 使 用 这 些 数据 , 首先 需要 下 载 它们 , 然后 将 其 转换 为 拥有 适当 类 型 和 形状 
的 张 量 。 因 此 ,波士顿 房价 项 目 在 data.js 文件 中 定义 了 和 名 为 BostonHousingDataset 的 类 。 该 
类 封装 了 数据 集 的 流 操 作 ， 并 提供 了 能 够 以 数值 矩阵 形式 获取 原始 数据 的 API。 这 个 类 的 内 部 使 
用 了 开源 Papa Parse 库 ?， 以 流 的 形式 获取 并 处 理 远 程 CSV 文件 。 当 文件 加 载 并 处 理 完毕 后 ,该 
库 会 返回 一 个 由 数值 组 成 的 数组 ， 随 后 程序 使 用 跟 示例 1 中 相同 的 API 将 数组 转换 为 一 个 张 量 。 
代码 清单 2-7 展示 了 市 选 目 index.js 的 部 分 代码 ， 其 中 无 关 的 部 分 已 进行 了 市 减 。 


代码 清单 2-7 在 index.js 中 将 波士顿 房价 数据 转换 为 张 量 
// 初始 化 data.js 文件 中 定义 的 BostonHousingDataset 对 象 
const bostonData = new BostonHousingDataset ( ) ; 























const tensors = {}; 


// 将 加 载 好 的 CSV 数据 (类 型 为 number[] []) 转换 为 二 维 张 量 

export const arraysToTensors = () => { 
tensors.rawTrainFeatures = tf.tensor2d(bostonData.trainFeatures); 
tensors.trainTarget = tf.tensor2d(bostonData.trainTarget).; 
tensors.rawTestFeatures = tf.tensor2d(bostonData.testFeatures); 
tensors.testTarget = tf.tensor2d(bostonData.testTarget).; 


】 





// 当 页 面 加 载 完 成 后 ， 异 步 读 取 房 价 数 据 





Q 可 以 登录 图 灵 社 区 获取 相关 资源 ，http://ituring.cn/book/2813。 一 一 编者 注 
Q 可 以 访问 Papa Parse 网 站 获取 更 多 信息 。 
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let tensors; 

document .addEventListener('DOMContentLoaded', async () => { 
await bostonData.loadData();} 
arraysToTensors(); 

}, false).; 


2.3.4 ”准确 定义 波士顿 房价 问题 


在 以 预期 形式 获取 数据 之 后 ， 就 可 以 更 准确 地 定义 任务 了 。 前 面 提 到 , 我们 的 目标 是 通过 其 
他 特征 预测 MEDV 值 ， 但 是 如 何 评 佑 模型 的 预测 性 能 ? 如 何 根据 性 能 差异 区 分 不 同 模 型 ? 

在 计算 示例 1 中 的 meanAbsoluteError 时 ,我 们 面条 的 是 所 有 的 预测 误差 。 也 就 是 说 ， 
如 果 模 型 对 10 个 样本 做 出 10 个 预测 ， 其 中 前 9 个 预测 都 与 目标 完全 吻合 ， 第 10 个 与 日 标 相差 
30， 那 么 meanAbsoluteError 就 是 3 (30/10=3 ), 同样 ， 如 果 模 型 对 每 个 样本 的 预测 都 正好 
与 对 应 目标 相差 3， 那 么 meanAbsoluteError 仍 会 是 3。 像 这 样 “ 平 等 处 理 误差 ， 看 起 来 可 
能 是 唯一 正确 的 选择 ， 实 则 不 然 。 相 比 meanAbsoluteError， 其 他 损失 度量 指标 一 定 程度 上 更 
适用 于 解决 当前 的 问题 。 

另 一 个 选择 是 根据 误差 大 小 对 它们 进行 加 权 , 较 大 的 误差 对 应 较 高 的 权重 。 也 就 是 不 再 取 绝 
对 误差 的 均 信 ， 而 是 取 误 差 平方 的 均 但 。 

回 到 之 前 10 个 样本 的 示例 ， 如 果 采 用 均 方 误差 (mean sqaured error, MSE )， 当 每 个 样 例 误 
差 都 是 3 时 ,最 终 损失 将 是 90( 10 x 3”=90 ), 比 单个 样 例 误差 为 30 导致 的 损失 900( 1 x 30 =900 ) 
要 小 得 多 。 正 是 因为 这 种 对 较 大 预测 误差 的 敏感 度 ， 所 以 相 比 平均 绝对 误差 , 均 方 误差 更 容易 受 
到 样本 中 离 群 值 ( outlier ) 的 影响 。 

对 于 以 最 小 化 均 方 误差 为 目标 的 模型 优化 右 ， 它 们 更 倾 问 选择 预测 误差 总 体 上 较 小 的 模型 ， 
而 不 是 偶尔 做 出 非常 粳 薰 的 预测 的 模型 。 当 然 ， 无论 哪 种 误差 度量 指标 ， 都 会 更 喜欢 永远 不 犯错 
的 模型 ! 但 是 ， 如 果 你 的 应 用 程序 本 里 对 预测 值 中 的 离 群 值 非常 敏感 ， 那么 均 方 误差 绝对 是 比 平 
均 绝 对 误差 更 好 的 选择 。 当 然 还 有 一 些 其 他 技术 原因 促使 你 选择 均 方 误差 或 平均 绝对 误差 , 但 是 
对 目前 的 示例 而 言 ， 它 们 并 不 重要 。 本 示例 将 笠 试 新 的 误差 度量 指标 ， 即 均 方 误差 。( 也 可 以 选 
择 平 均 绝对 误差 来 实现 。) 

在 继续 之 前 ， 应 该 完 找到 针对 损失 的 基准 估计 。 如 采 不 知 违 简单 预测 的 误差 ， 那 就 不 具备 使 
用 更 复杂 的 模型 进行 预测 的 前 提 人 条件。 这 里 使 用 房价 的 平均 值 作为 “最 佳 朴素 预测 ”， 也 就 是 说 ， 
每 次 都 预测 房价 的 平均 值 ， 然 后 以 此 计算 预测 误差 ， 如 代码 清单 2-8 所 示 。 


代码 清单 2-8 ”以 房价 的 平均 值 作为 预测 值 来 计算 基准 损失 















































export const computeBaseline = () => { 计算 房价 平均 值 
const avgPrice = tf.mean(tensors.trainTarget).; 
console.log( Average price: S{avgPrice.dataSync()[0]} ); 


pow() 和 mean() 来 计算 均 
方 误差 


tensors.testTlarget, 
Console.1log!l( 


const baseline = I 
tf.mean(tf.pow(tf.subl( 根据 测试 集 ， 调 用 sub ()、 
avgPrice), 2)) 


2.3 示例 2 涉及 多 个 输入 特征 的 线性 回归 55 


| 打印 损失 什 


‘Baseline loss: SsS{baseline.dataSync()[0]}.); 


本 


TensorFlow.js 可 以 通过 在 GPU 上 调度 计算 任务 来 优化 计算 过 程 ， 因 此 CPU 并 不 总 是 能 够 获 
取 张 量 数据 。 代 码 清单 2-8 中 调用 了 datasync， 告 诉 TensorFlow.js 应 该 完成 当前 的 张 量 计算 ， 
并 将 计算 结果 从 GPU 移 到 CPU。 这 样 就 可 以 将 张 量 值 打印 出 来 ， 或 传 给 其 他 不 包含 TensorFlow 
的 运算 使 用 。 

当 执 行 代码 清单 2-8 中 的 代码 后 ， 控 制 台 中 会 输出 以 下 数据 : 


Average price: 22.768770217895508 
Baseline loss: 85.58282470703125 


可 以 看 到 , 之 前 的 “最 佳 朴素 预测 ”误差 约 为 85.58。 这 意味 着 , 如 果 构 建 一 个 永远 输出 22.77 
的 模型 ， 那 么 该 模型 相对 于 测试 集 的 均 方 误差 约 为 85.58。 再 次 注意 ， 这 里 是 从 训练 集中 计算 房 
价 平 均值 , 然后 利用 测试 集 对 其 进行 评估 , 这 样 能 够 避免 因 使 用 同一 数据 集 进行 训练 和 评估 而 造 
成 的 不 合理 偏差 。 

此 处 的 均 方 误差 为 85.58， 要 获得 平均 误差 .需要 计算 它 的 平方 根 ( 约 为 9.25 )。 这 意味 着 ， 
当 用 常量 作为 预测 值 时 ， 平 均 误 差 会 上 下 波动 约 9.25。 表 2-1 中 数值 的 单位 是 1000 美元 ， 也 就 
是 说 ， 用 常量 作为 预测 值 大 概 会 跟 日 标 相 差 9250 美元 。 而 真正 掌握 机 器 学 习 的 技术 人 员 能 够 及 
时 避免 不 必要 的 复杂 度 , 即 如 果 这 可 以 满足 应 用 程序 的 需求 , 那么 我 们 就 可 以 告 一 段落 了 ! 现在 ， 
假设 预测 常量 还 不 能 满足 本 示例 的 需求 , 接 下 来 我 们 将 使 用 一 个 线性 模型 来 拟 合 数据 , 并 判断 其 
均 方 误差 是 否 超过 85.58。 


2.3.5 ”线性 回归 前 的 准备 工作 : 数据 标准 化 


仔细 观察 波士顿 房价 的 特征 数据 ， 可 以 发 现 每 个 特征 的 取信 范围 各 不 相同 。NOX 的 取 值 泡 
围 是 0.385 ~ 0.871，TAX 的 取 值 范围 是 187 ~ 711。 对 拟 合 线性 回归 而 言 ， 优 化 器 会 尝试 为 每 个 
特征 找到 一 个 权重 ， 主 每 个 特征 的 加 权 总 和 约 等 于 房价 。 就 像 之 前 说 的 ， 在 调整 权重 时 ， 优 化 
器 会 根据 梯度 下 降 算法 获取 合适 的 权重 。 如 果 一 些 特征 相 比 其 他 特征 在 取 值 范围 方面 差异 很 大 ， 
那么 某 些 权重 会 对 模型 输出 产生 更 大 的 影响 。 换 句 话 说， 在 一 个 方 回 上 做 出 的 非常 小 的 改变 ， 
会 比 其 他 方向 上 的 非常 大 的 改变 造成 的 输出 变化 更 大 。 这 会 加 剧 训练 方面 的 不 稳定 性 ,而 且 难 以 
拟 合 模型 。 

为 了 应 对 这 一 问题 ， 需 要 先 把 数据 标准 化 (normalize )。 也 就 是 说 ， 对 特征 进行 缩放 (scale )， 
使 其 平均 值 为 0, 标准 差 为 单位 标准 差 。 这 类 标准 化 方法 通常 叫 作 标 准 变换 ( standard transformation ) 
或 z-score 标准 化 (z-score normalization ), 这 里 使 用 的 算法 很 创 单 ,首先 计算 每 个 特征 的 平均 值 ， 
然后 从 原始 值 中 减 去 平均 值 ， 这 样 特 征 的 平均 值 就 变 为 0。 随 后， 计算 特征 的 标准 差 ， 将 减 去 平 
均值 后 的 特征 值 与 标准 差 相 除 ， 就 得 到 了 标准 化 后 的 特征 。 这 一 过 程 对 应 的 伪 代 码 如 下 : 


normalizedFeature = (feature - mean(feature)) / stdl(feature) 
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比如 ， 当 原始 特征 为 [10，20，30，40] 时 ， 其 对 应 的 标准 化 特征 约 为 [-1.3，-0.4，0.4， 
1.3]。 显 然 ， 其 平均 值 为 0， 而 且 标准 差 约 为 单位 标准 差 。 在 波士顿 房价 预测 示例 中 ,标准化 的 
代码 划 入 了 和 名 为 normalization.js 的 独立 文件 ， 代 码 清单 2-9 展示 了 里 面 的 内 容 。 此 处 可 以 看 到 两 
个 函数 : 一 个 负责 计算 输入 的 二 阶 张 量 的 平均 值 和 标准 差 ; 另 一 个 负责 根据 输入 的 平均 值 和 标准 
差 对 张 量 进行 标准 化 ， 这 里 的 平均 值 和 标准 差 是 预先 经 过 计算 的 。 
代码 清单 2-9 ”数据 标准 化 : 平均 值 为 0， 标 准 差 为 单位 标准 差 


/大 大 











* 计算 数组 中 每 列 数据 的 平均 值 和 标准 差 


* 


* Qparam {Tensor2d} data: 用 于 独立 计算 每 列 数 据 的 平均 值 和 标准 差 的 数据 集 
* Qreturns {Object}: 包含 每 列 数据 的 平均 值 和 标准 差 的 一 维 张 量 
7 


export function determineMeanAndStddev(data) { 








const dataMean = data.mean(0).; 

const diffFfromMean = data.sub (dataMean);} 

const squaredDiffFromMean = diffFromMean.square(); 
Const variance = squaredDiffFromMean.mean(0); 
const std = variance.sgrt();} 

return {mean, std}; 





人 
光 XX ~ A XX ~% * A XX XX% 


人 


输入 给 定 的 平均 值 和 标准 差 。 通 过 减 去 平均 值 并 除 以 标准 差 ， 实 现 数据 集 标准 化 


eparam {Tensor2d} data: 待 标准 化 的 数据 ， 形 状 为 [numSamples，, numFeatures] 
ebparam {Tensorld} mean: 输入 的 数据 平均 值 ， 形状 为 [numFeatures] 
eparam {Tensorld} std: 输入 的 数据 标准 差 ， 形状 为 [numFeatures] 





ereturns {Tensor2d}: 返回 的 张 量 和 输入 的 数据 形状 相同 ， 
但 通过 标准 化 ， 每 列 数据 的 平均 值 变 为 索 ， 标准 差 变 为 单位 标准 差 


export function normalizeTensor(data, dataMean, dataSstqd) { 
return data.sub(dataMean) .div (dataStdqd);} 
} 


接 下 来 更 深入 地 研究 一 下 这 两 个 困 数 。 determineMeanAndStddev 也 数 的 输入 为 data, 
即 一 个 二 阶 张 量 。 按 照 惯 例 ， 第 1 个 维度 是 样本 维度 ， 其 中 每 个 对 引 部 对 应 独立 且 唯 一 的 样本 。 
第 2 个 维度 是 特征 维度 ， 它 的 12 个 元 素 分 别 对 应 12 个 输入 特征 (如 CRIM、ZN、INDUS 等 )。 
因为 我 们 要 独立 计算 每 个 特征 的 平均 值 ， 所 以 像 下 面 这 样 调用 mean () 方 法 。 

const dataMean = data.mean(0); 

这 里 的 0 意味 看 取 第 0 个 索引 对 应 的 维度 (第 1 个 维度 ) 的 平均 值 。 前 面 提 到 ，data 是 一 
个 二 阶 张 量 ， 因 此 有 两 个 维度 ， 或 者 说 两 个 轴 (axis )。 第 1 个 轴 是 “ 批 次 ” 轴 ， 对 应 样本 维度 。 
如 有 果 沿 看 该 轴 依 次 经 过 第 1 个 元 素 、 第 2 个 元 条 和 第 3 个 元 系 ， 实 际 上 就 是 在 经 过 各 个 样本 ， 也 
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就 是 本 示例 中 不 同 的 房价 数据 。 第 2 个 轴 对 应 特征 维度 。 如 果 洛 着 该 轴 依 次 经 过 它 的 不 同 元 系 ， 
实际 上 是 在 经 过 不 同 的 特征 ， 比 如 表 2-1 中 的 CRIM、ZN 和 INDUS 等 。 当 沿 着 索引 为 0 的 轴 计 
算 平 均值 时 ， 实 际 上 是 在 获取 所 有 样本 的 平均 值 。 结 果 就 是 只 保留 特征 轴 的 一 阶 张 量 ， 其 中 存储 
了 每 个 特征 的 平均 值 。 如 果 沿 着 男 一 条 轴 计 算 平均 值 ， 那么 还 是 会 获得 一 个 一 阶 张 量 。 但 这 回 保 
留 的 轴 对 应 的 是 样本 维度 ， 对 应 每 个 样本 的 特征 的 平均 值 ， 这 对 本 示例 而 言 是 没有 意义 的 。 在 进 
行 张 量 计算 时 ,一定 注意 使 用 的 维度 是 否 正确 ， 这 是 一 个 常见 的 错误 来 源 。 

如 果 我 们 在 此 处 设置 一 个 断 点 ”, 就 可 以 用 JavaScript 控 制 台 探索 计算 出 的 平均 值 , 该 平均 值 
和 整个 数据 集 的 平均 值 非常 接近 ， 这 意味 着 训练 样本 具有 代表 性 : 

> dataMean. shape 

[12] 

> ataearn. print (}, 


[3.3603415, 10.6891899, 11.2934837,， 0.0600601，,， 0.5571442，,， 6.2656188,， 
68.2264328, 3.7099338,， 9.6336336， 409.2792969，,， 18.4480476,， 12.5154343] 


下 一 行使 用 tf. sub 方法 从 原始 数据 中 减 去 数据 的 平均 值 ,从 而 获得 平均 值 为 0 的 数据 版 本 : 


const diffFromMean = data.sub (dataMean).: 


如 采 你 刚刚 没有 完全 集中 注意 力 ， 可 能 会 忽略 上 面 这 一 行 中 有 趣 的 “说 法 ”。 只 要 仔细 观察 ， 
你 就 会 发 现 data 是 形状 为 [333，12] 的 二 阶 张 量 ， 而 aataMean 是 形状 为 [12] 的 一 阶 张 量 。 
通常 而 言 ， 两 个 不 同形 状 的 张 量 是 不 可 能 相 减 的 。 但 是 ， 这 里 TensorFlow 使 用 了 其 广播 机 制 
(broadcast )， 通 过 重复 第 2 个 张 量 333 沉 ， 拓 展 了 第 2 个 张 量 的 形状 。 结 果 就 和 我 们 使 用 时 预期 
的 一 样 ， 只 不 过 不 必 明 确 写 出 来 。 这 个 易 用 的 机 制 会 为 使 用 者 带 来 很 大 的 便利 , 但 是 ， 对 于 哪些 
形状 可 以 兼容 广播 机 制 ， 这 方面 的 规则 可 能 会 让 人 有 些 困惑 。 如 末 你 对 广播 机 制 的 细节 感 兴趣 ， 
可 以 在 信息 栏 2-4 中 进一步 了 解 。 

determineMeanAndStddev 图 数 中 接 下 来 的 几 行 没有 什么 特殊 之 处 :tft.sduare() 负责 计 
算 每 个 元 又 的 平方 数 ,，tf .sqrt () 负 责 计 算 元 素 的 平方 根 。TensorFlow.js 的 官方 文档 中 对 每 个 方 
法 的 API 提 供 了 详细 的 解释 ， 如 图 2-12 所 示 。 
























































QD 关于 设置 断 点 的 方法 ， 对 于 Chrome 浏览 磊 ， 可 以 浏览 Chrome DevTools 网 站 的 “How To Pause Your Code With 
Breakpoints In Chrome DevTools”(“ 使 用 断 点 暂停 代码 ”) 对 于 火狐 浏览 右 、Edge 浏览 硕 或 其 他 任意 浏览 塘 ， 可 
以 搜索 “如 何 设置 断 点 ”进行 浏览 。 
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Please Take the TensorFlow.js Survey! 

















tfmatMul 
tf.norm tf .mean (x g axis? keepDims?) function source 
tf.outerProduct 
Computes the mean of elements across dimensions of a tf.Tensor. 
tftranspose 
Reduces x along the dimensions given in axis.Unless keepDims is true, the rank of the tf.Tensor is reduced 
Convolution by 1 for each entry in axis .上 keepDims is true, the reduced dimensions are retained with length 1. If axis has 
| no entries, all dimensions are reduced, and a tf.Tensor with a single element is returned. 
tf.avgPool 
tfconv1d 
tf.conv2d 
tf.conv2dTranspose 0 
Edit R 
tf.depthwiseConv2d Tensor | 
tf.maxPool 
tf.separableConv2d 
Reduction 
tf.all 一 
tf.any Tensor _Edit | | Run 
tf.argMax [1.5, 3.5] 
tf.argMin 
tflogSumExp Parameters: 
tf.max x (tf.Tensor|TypedArray|Array) The input tensor. 
tf.mean axis (number |number[ ] ) The dimension(s) to reduce. By default it reduces all dimensions. Optional 
tf.min 
Dani keepDims (boolean) Iftrue, retains reduced dimensions with size 1. Optional 


Returns: tf . Tensor 





Normalizatinn 


图 2-12 在 TensorFlow 网 站 中 ， 浏 览 TensorFlow.js API 文档 ， 直 接 与 TensorFlow API 
进行 探索 与 互动 ， 从 而 快速 熟悉 API 的 功能 与 一 些 复杂 用 例 


单 击 TensorFlow 网 站 API 下拉 列 表 中 的 TensorFlow.js, 可 以 打开 对 应 的 API 文档 ,如 图 2-12 
所 示 ，TensorFlow.js API 文档 页 面 是 实时 可 互动 的 ， 你 可 以 用 自己 喜欢 的 参数 在 其 中 探索 API 中 
国 数 的 使 用 方法 。 

本 示例 中 ane 往 ， 旨 在 清晰 地 展现 计算 过 程 。 但 是 ,det ermineMean- 
AndSstdqdev 图 数 其 实 完全 可 以 用 更 简短 的 方式 来 编写 。 


const std = data.sub(data.mean(0)) .square() .mean() .sqrt();} 


如 上 所 示 , 使 用 TensorFlow 能 够 避免 很 多 不 必要 的 样板 代码 (boilerplate code )， 以 较为 简单 
的 方式 表达 一 系列 数值 计算 。 

















言 息 栏 2-4 ”广播 机 制 

假设 存在 一 个 张 量 运算 ， 满足 C = es B)， 其 中 入 和 BB 都 是 张 量 。 
在 可 行 且 不 影响 计算 较 小 的 那个 张 量 会 通过 广播 机 制 进行 扩展 , 直到 其 形状 能 
够 匹配 较 大 的 张 量 。 这 个 过 程 由 以 下 两 个 步骤 组 成 。 

(1) 向 较 小 张 量 so 又 称 广播 轴 ( broadcast axis )， 来 匹配 较 大 张 量 的 阶 (rank ) 数 。 

(2) 较 小 张 量 会 沿 着 新 添加 的 轴 进 行 自 我 复制 ， 来 匹配 较 大 的 张 量 的 完整 形状 。 

就 实现 而 言 ， 广 播 机 制 并 不 会 生成 新 张 量 ,这 是 因为 这 种 做 法 非常 低 效 。 较 小 张 量 的 自我 
复制 是 完全 虚拟 的 ， 也 就 是 说 ， 这 一 步 只 发 生 在 算 法 层面 ， 而 不 是 内 存 层 面 。 无 论 怎样 ， 这 种 
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将 广播 机 制 当 作 较 小 张 量 活着 新 轴 进 行 复制 的 想法 ， 对 于 直观 理解 广播 机 制 非 常 有 帮助 。 
借助 广播 机 制 , 一 般 可 以 对 两 个 张 量 进行 逐 元 素 计算 (element-wise operation )。 也 就 是 说 ， 
个 仆人 人 
m) ， 在 这 种 情况 下 ， 轴 aa 至 轴 m - 1 就 会 自动 进行 广播 。 下 面 的 示例 展示 了 通过 广播 机 制 ， 
对 形状 不 同 的 随机 张 量 逐 元 素 进行 最 大 值 计 算 : 
x 是 形状 为 [64，3，11，9] 
tf.randomUniform([64, 3, 11, 9]); 二 一 的 随机 张 量 


EE Yandomunniiorm( [ilil, 91); 二 一 一 一 y 是 形状 为 [11，91] 的 随机 张 量 
tf.maximum(x,，y); < 一 输出 z 和 x 形状 相同 , 即 [64，,，3，11，9] 


bs 
Ue el 


2.3.6 ”对 波士顿 房价 数据 集 进 行 线性 回归 


我 们 实现 了 数据 标准 化 , 并且 计 算出 了 一 个 合理 的 基准 性 能 。 至此, 模型 构建 的 必要 准备 工 
作 就 完成 了 。 下 一 步 是 构建 并 拟 合 模型 , 检查 它 能 否 超 越 基 准 性 能 。 与 2.1 市 类 似 , 代码 清单 2-10 
中 定义 了 一 个 线性 回归 模型 ( 摘 目 indexjs )。 这 两 部 分 代码 极其 相似 , 唯一 的 区 别 是 对 inputshape 
的 配置 , 它 接受 的 向 量 长 度 从 之 前 的 1 变 成 了 现在 的 12。 该 密集 层 ( dense layer ) 的 输出 仍 为 units: 
1， 意 味 肴 输出 为 单个 数字 。 


代码 清单 2-10 ”为 波士顿 房价 问题 定义 一 个 线性 回归 模型 























export const linearRegressionModel = () => { 
const model = tf.sequential (); 
model.add (tf.layers.densel 
{inputShape: [bostonData.numFeatures], units: 1})); 


return model; 

}; 

前 面 提 到 ， 虽然 定义 了 模型 ， 但 是 在 开始 训练 前 ， 必须 调用 model .Compile 方法 来 为 模型 
设置 损失 因数 以 及 优化 顺 。 代 码 清单 2-11 中 使 用 了 'meanSsaquaredaError ' 损 失 困 数 ， 优 化 融 则 
是 自 定 义 的 学 习 率 。 注意 , 在 示例 1 中 , 优化 硕 的 参数 为 字符 串 ' sgdq' ， 现 在 变 为 了 tf.train. 
sgdq(LEARNING_RATE) 。 这 个 工厂 国 数 会 返回 一 个 对 象 ， 表 示 随 机 梯度 下 降 优 化 算法 ， 并 且 使 
用 输入 的 参数 作为 学 习 率 。 这 是 TensorFlow.js 中 一 个 常见 的 模式 ， 灵 感 来 日 于 Keras， 很 多 涉及 
选项 配置 的 地 方 会 采用 这 种 方法 。 对 于 标准 有 旦 常用 的 默认 参数 ， 可 以 用 字符 串 形式 的 标记 值 
( sentinel value ) 蔡 代 原本 所 和 需 的 对 象 类 型 ，TensorFlow.js 会 日 动 将 字符 串 符 换 成 所 需 的 对 象 ， 并 
使 用 合理 的 默认 参数 。 比 如， 之 前 的 ' sgd ' 会 替换 成 tf.train.sgd(0.01)。 当 用 户 需 要 肯定 
义 配 置 对 象 时 ,可 以 通过 调用 工厂 国 数 , 并 癌 其 传递 所 需 的 自 定 义 参 数 来 构建 对 象 。 在 大 多 数 情 
况 下 ， 这 种 方法 可 以 让 代码 更 为 何洁 ， 同 时 用 户 可 以 按 需 来 履 写 默认 行为 。 


代码 清单 2-11 编 幸 波士顿 房价 预测 模型 (摘自 index.js) 
Const LEARNING RATE = 0.01; 
model.compilel(t 
optimizer: tf.train.sgd (LEARNING RATE), 
Joss: 'meanSquaredError'}); 
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现在 可 以 用 训练 集 来 训练 模型 了 。 代 码 清单 2-12 至 代码 清单 2-14 中 使 用 了 mogdel .fit() 
方法 的 一 些 额外 特性 。 但 从 本 质 上 讲 ， 它 和 图 2-6 中 的 做 法 是 一 样 的 。 在 每 个 轮 次 中 ， 它 会 从 特 
征 数 据 里 选 出 很 多 新 样本 ( tensors .trainFeatures ) 和 目标 (tensors .trainTardet )， 
然后 计算 损失 ,接着 更 新 模型 内 部 权重 ,从 而 减 小 损失 ,这 个 过 程 会 在 训练 集中 重复 NUM_EPOCHS 
个 完整 轮 次 ， 每 个 轮 次 都 会 选择 BATCH_sIzE 来 指定 每 个 批 次 应 包含 的 样本 数量 。 


代码 清单 2-12 训练 波士顿 房价 预测 模型 

awalt model.fit(tensors.trainFeatures, tensors.trainTarget, { 
batchSize: BATCH SIZE 
epochs: NUM EPOCHS, 








}) 


波士顿 房价 预测 Web 应 用 程序 中 提供 了 一 张 图 ， 其 中 展示 了 模型 训练 过 程 中 损失 的 变化 情 
况 。 这 里 需要 使 用 model .fit() 的 回调 功能 来 更 新 UI， 用 户 可 以 利用 mogdel .fit() 回 调 API 
来 设置 回调 函数 ,然后 在 特定 事件 发 生 时 进行 调用 。 截至 TensorFlow 0.12.0 版 本 ,可 用 的 回调 触 
发 事件 如 下 : onTrainBegin、 onTrainEnd、 onEpochBegin、 onEpochEnd、 onBatchBegin 
和 onBatchEnd。 


代码 清单 2-13 ”在 model .fit() 中 设置 回调 也 数 
let trainLoss; 
awalt model.fit(tensors.trainFeatures, tensors.trainTarget, { 
batchSize: BATCH SIZE, 
epochs: NUM EPOCHS, 
callbacks: { 
onEpochEnd: async (epoch, logs) => { 
awalit ui.updateStatus( 
Epoch SsS{epoch + 1} of S$S{NUM EPOCHS} completed..); 
trainLoss = logs.1oss; 
awalit ui.plotData (epoch, trainLoss).; 
} 
}); 


此 处 还 需要 引入 新 的 自 定 义 参数 ,负责 配 置 验证 集 。 验 证 集 是 机 需 学 习 中 的 重要 概念 。 在 示 
例 1 中, 为 了 无 偏差 地 评估 模型 在 未 出 现 过 的 新 数据 集 上 的 性 能 , 我 们 将 数据 分 成 了 训练 集 和 数 
据 集 。 但 更 为 常见 的 情况 是 ,除了 这 两 个 子 集 ， 原始 数 据 还 会 划分 出 男 一 个 单独 的 数据 集 ， 即 验 
证 集 ( validation data )。 验 证 集 、 训 练 集 和 测试 集 彼此 独立 ， 那 验证 集 的 用 途 是 什么 呢 ? 机 需 学 
习 工 程 师 会 评估 模型 在 验证 集 上 的 性 能 ， 并 根据 评估 结果 调整 模型 的 配置 "， 从 而 提高 验证 集 的 
准确 率 。 整 个 过 程 看 起 来 都 没有 问题 ,但 是 如 果 一 直 重 复 这 个 过 程 ， 等 超过 一 定 次 数 之 后 ， 其 实 
就 相当 于 根据 验证 集 来 调整 参数 。 这 时 如 果 再 用 该 验证 集 评 估 模 型 的 最 终 准 确 率 , 那么 最 终 的 评 
佑 结果 是 不 具 泛 化 意义 的 。 模 型 已 经 见 过 了 这 些 数据 , 导致 评 佑 结果 无 法 真实 反映 模型 相对 于 未 
知 数 据 的 性 能 ， 这 就 是 将 验证 集 和 测试 集 分 开 的 目的 。 因 此 ,这 里 的 基本 思路 是 ,在 训练 集 上 拟 




































































中 可 调整 的 模型 配置 包括 : 模型 的 层 数 、 每 层 的 大 小 以 及 在 训练 时 使 用 的 优化 需 与 学 习 率 的 类 型 ， 等 等 。 这 些 配置 
通常 称 为 模型 的 超 参 数 ( hyperparameter )， 人 参见 3.1.2 节 。 
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合 模 型 ， 根 据 模型 在 验证 集 上 的 评估 结果 调整 其 超 参数 ， 当 训练 完成 并 获得 满意 的 训练 性 能 后 ， 
再 在 测试 集 上 进行 最 后 一 次 评 佑 。 这 样 就 能 获得 具有 泛 化 意义 的 模型 性 能 评估 绪 

下 面 总 结 一 下 训练 集 、 验 证 集 和 测试 集 的 概念 ,以 及 它们 在 TensorFlow.js 中 的 使 用 方法 。 并 
不 是 所 有 的 项 目 都 会 划分 这 3 种 数据 集 , 一 般 来 说 ,快速 探索 性 项 目 或 研究 性 项 目 只 划分 训练 集 
和 验证 集 ， 并 不 会 专门 保留 纯粹 用 于 测试 的 测试 集 。 这 种 做 法 可 能 不 够 严谨 ， 但 在 有 些 情况 下 ， 
这 是 对 有 限 数据 资源 的 最 优化 处 理 。 

口 训练 集 : 利用 梯度 下 降 算 法 拟 合 模型 权重 。 

四 在 TensorFlow.js 中 的 用 法 : 借助 调用 Moeael .fit(x,，y，config) 时 输入 的 两 个 主要 
参数 (x 和 y )， 可 以 使 用 训练 集 。 

口 验证 集 : 选择 模型 架构 和 超 参 数 。 

四 在 TensorFlow.js 中 的 用 法 : Model .fit() 有 两 种 定义 验证 集 的 方法 ， 都 是 通过 设置 
config 对 象 的 属性 实现 的 。 如 果 用 户 想 让 模型 使 用 特定 的 验证 集 ， 那 么 可 以 通过 
config.validationData 进行 设置 。 如 有 果 想 让 框架 能 够 从 训练 集中 分 离 一 些 数据 作 
为 验证 集 ， 那 么 可 以 通过 为 config.validationSplit 设置 代表 百分比 的 小 数 进行 
配置 。 框 架 则 人 希 责 在 训练 模型 时 排除 验证 集 ， 因 此 训练 过 程 和 验证 过 程 不 会 重 车。 

口 测试 集 : 最 终 无 偏见 地 评估 模型 性 能 。 
加 在 TensorFlow.js 中 的 用 法 : 借助 调用 Model .evaluate (x, y，config) 时 输入 的 两 
个 主要 参数 (x 和 y )， 可 以 使 用 评估 用 的 测试 集 。 
代码 清单 2-14 中 同时 计算 了 验证 损失 和 训练 损失 。valiaqationsplit: 0.2 字段 指明 
model.fit() 要 在 训练 集中 选择 20% 的 数据 作为 验证 集 ， 这 部 分 数据 不 会 在 训练 过 程 中 出 现 ， 
也 就 是 说 不 会 影响 梯度 下 降 算 法 。 


代码 清单 2-14 在 model .fit() 中 配置 验证 集 的 划分 情况 

let trainLoss; 

let valLoss; 

await model.fit(tensors.trainFeatures, tensors.trainTarget, f{ 
batchSize: BATCH SIZE, 
epochs: NUM EPOCHS, 
validationSplit: 0.2, 
callbacks: { 

onEpochEnd: async (epoch, logs) => { 






































awalit ui.updateStatus( 
Epoch Sfepoch + 1} of S$S{NUM EPOCHS} completed..); 
trainLoss = logs.1loss; 
valLoss = logs.val loss; 
await ui.plotData (epoch, trainLoss, valLoss); 





} 
1 
}); 
用 较 新 的 笔记 本 计算 机 训练 上 述 模型 中 的 200 个 轮 次 大 约 需要 11 秒 。 现 在 可 以 在 测试 集 上 评 
舍 模 型 了 了 ， 从 而 检查 它 是 否 可 以 超越 基准 性 能 。 代 码 清单 2-15 展示 了 如 何 用 modqel .evaluate () 
获得 模型 在 预 留 的 测试 集 上 的 性 能 结果 。 当 得 出 结果 后 ， 再 调用 目 定 义 的 UI 旺 数 更 新 界面 。 
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代码 清单 2-15 ”在 测试 集 上 评估 模型 并 更 新 UI ( 摘自 index.js ) 


awalt ui.updateStatus('Running on test data...'); 


Const result = moaqe] .evaluate ( 
tensors.testFeatures, tensors.testTarget, {batchSize: BATCH SIZE}).; 
const testLoss = result.dataSync()[0]; 





awalit ui.updateStatusl( 
Final train-set loss: S$S{trainLoss.toFixed(4)}\n. + 
“Final validation-set loss: S$S{valLoss.toFixed(4)}\n, + 
‘Test-set loss: S${testLoss.toFixed(4)}.); 


此 处 ，model .evaluate() 会 返回 一 个 标量 (0 阶 张 量 )， 用 于 保存 测试 集 上 计算 的 损失 值 。 

因为 梯度 下 降 算 法 存在 随机 性 , 所 以 可 能 会 得 到 不 同 的 结果 , 但 是 界面 最 终 显示 的 结果 会 和 
下 面 类 似 。 

口 最 终 的 训练 集 损失 (Final train-set loss ): 21.9864 

口 最 终 的 验证 集 损 失 (Final validation-set loss ): 31.1396 

口 测试 集 损失 ( Test-set loss ): 25.3206 

口 基准 损失 ( Baseline loss ): 85.58 

如 上 面 所 展示 的 ， 最 终 计算 的 无 偏差 损失 约 为 23.32。 这 比 朴 素 基 准 的 85.58 要 好 得 多 。 前 
面 提 到 ， 该 数字 是 由 meanSquaredError( 均 方 误差 ) 计算 所 得 ， 通 过 求 其 平方 根 ， 可 以 得 出 
基准 损失 的 偏差 约 为 9.25。 而 线性 模型 的 仿 差 约 为 5.03， 相 比 之 下 ,准确 率 获得 了 大 幅度 提升 ! 
如 采 世 界 上 只 有 我 们 知道 这 些 房 价 信 息 以 及 对 其 预测 的 方法 ， 那 么 就 可 以 轻 而 多 举 地 成 为 1978 
年 波士顿 房地产 投资 者 中 的 芍 楚 ! 然而 ， 发 展 是 无 止境 的 ,与 当前 模型 的 计算 结 采 相 比 ， 有 些 人 
构建 的 模型 能 够 执行 更 准确 的 计算 ……: 

如 有 果 你 提前 单 击 了 “Train Neural Network Regressor” 按 钮 ,会 发 现 获得 更 为 准确 的 计算 结果 
确实 是 可 能 的 ， 下 一 草 将 引入 非 线性 深度 模型 展示 如 何 实现 这 一 点 。 


2.4 如 何 理解 模型 


当前 模型 已 经 训练 完成 , 而 且 它 能 够 对 房价 做 出 合理 的 预测 , 接 下 来 就 应 该 检查 它 的 学 习 结 
采 了 。 那么 如 何 深 入 模型 内 部 来 了 解 它 理 解 这 些 数据 的 方式 ?” 男 外 ， 当 模型 对 某 个 输入 进行 价格 
预测 时 , 能 否 找 到 关于 模型 如 何 得 出 计算 结果 的 合理 解释 ?在 一 般 的 大 型 深 度 网 络 中 ,对 模型 的 
认 知 称 为 模型 可 解释 性 ( model interpretability )， 这 仍 是 一 个 活跃 的 研究 领域 ， 与 其 相关 的 宣传 
海报 和 学 术 会 议 不 胜 枚 举 。 但 对 当前 这 个 简单 的 线性 回归 模型 而 言 ， 要 理解 它 其 实 相 当 简 单 。 

本 市 介绍 下 面 两 项 内 容 。 

口 从 模型 中 提取 习 得 的 权重 。 

口 解释 这 些 权 重 ， 并 根据 目 己 的 理解 重新 权 衔 这 些 权重 。 


2.4.1 解释 习 得 的 权重 
2.3 节 中 构建 的 简单 线性 模型 包含 13 个 训练 好 的 参数 , 与 2.1.4 节 中 的 第 一 个 线性 模型 一 样 ， 
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这 些 午 封装 在 一 个 核 与 一 个 偶 差 中 。 


output = kernel . features + bias 


核 与 偏差 的 数值 都 是 在 拟 合 模型 的 过 程 中 习 得 的 。 与 2.1.4 市 中 学 习 的 标量 ( scalar ) 线性 隙 
数 不 同 ， 此 处 的 特征 与 核 邵 是 向 量 ( vector )。 而 上 面 公式 中 的 “*” 指 内 积 运算 ( inner product )， 
即将 标量 乘法 泛 化 到 回 量 上 的 运算 。 内 积 又 名 点 积 〈dot product )， 定 回 量 间 对 应 元 系 乘 积 之 和 。 
代码 清单 2-16 中 的 伪 代 码 更 准确 地 定义 了 内 积 的 概念 。 

从 该 线性 模型 中 可 以 看 到 , 特征 的 元 素 和 核 的 元 系 之 间 是 有 内 在 联系 的 。 对 于 每 一 个 特征 元 
系 ， 例 如 表 2-1 中 列 出 的 CRIM 和 NOX， 在 核 中 都 有 一 个 与 其 对 应 的 习 得 的 数值 。 每 一 个 数值 
邦人 代表 模型 从 该 特征 中 习 得 的 信息 ， 以 及 该 特征 影响 输出 的 方式 。 


代码 清单 2-16 ”内 积 的 伪 代 码 
function innerPproduct(a, b) { 
output = 0; 
for (let 1 = 0 ;1i < a.length ; i++) { 
output += a[i] * bl[il]; 
} 


return output,; 

















】 


比如 ， 如 果 模 型 习 得 kernel[i] 的 值 为 正 ， 那么 这 意味 者 输出 会 随 厦 featureril 值 的 增 
加 而 增加 。 反 之 亦 然 ， 如 果 柑 型 习 得 kernel [j] 的 信 为 负 ， 那 么 输出 会 随 肴 feature[j] 值 的 
增加 而 降低 。 如 果 习 得 的 值 非常 小 , 这 意味 看 模型 默认 其 对 应 的 特征 对 预测 值 的 影响 非常 小 。 如 
条 习 得 的 值 非常 大 , 则 意味 看 模型 非 沼 重视 对 应 特征 对 预测 值 的 影响 , 一 旦 该 特征 值 出 现任 何 变 
化 ， 就 会 对 预测 值 产 生 较 大 的 影响 。” 

下 面 用 具体 的 数据 来 加 次 理解 。 图 2-13 中 展示 了 运行 波士顿 房价 预测 模型 后 ， 得 到 的 5 个 
绝对 值 相对 逢 前 的 特征 权重 。 因 为 随机 初始 化 机 制 ,所 以 后 面 再 运行 模型 时 可 能 会 得 到 不 同 的 值 。 
我 们 可 以 先 来 大 致 预测 表 中 的 那些 特征 ， 然 后 和 表 进 行 比 对 。 可 以 看 到 , 那些 预期 会 对 房价 产生 
负面 影响 的 特征 ， 对 应 的 权重 确实 为 负 值 , 例如 本 地 居民 的 辍学 率 以 及 通勤 距离 ;那些 预期 会 对 
房价 产生 正面 影响 的 特征 ， 对 应 的 权重 确实 为 正 值 ， 例 如 住宅 平均 房间 数 。 


-3.8119 
通勤 中 离 -3.7278 


























住宅 平均 房间 数 
到 最 近 高 速 公路 的 距离 
一 氧化 所 浓度 














图 2-13 ”运行 波士顿 房价 预测 模型 后 得 到 的 5 个 绝对 值 徘 前 的 特征 权重 ,这 里 按 
绝对 值 大 小 进行 排序 。 注 意 ， 权 重 为 负 的 特征 会 对 房价 产生 负面 影响 














QD 正如 在 波士顿 房价 数据 集中 所 做 的 那样 ， 此 处 之 所 以 能 以 这 样 的 方式 比较 值 的 变化 ， 是 因为 预先 对 特征 数据 进行 
了 标准 化 处 理 。 
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2.4.2 ”获取 模型 内 部 权重 


习 得 模型 的 模块 化 结构 可 以 非常 容易 地 获取 相关 权重 。 但 如 果 要 获得 内 部 的 原始 数值 , 还 需 
要 经 过 几 层 API。 特别 需 要 注意 的 是 ， 由 于 这 些 值 可 能 在 GPU 中 存储 ， 而 且 通 过 便 件 则 通信 获取 
它们 的 开销 很 大 , 因此 必须 异步 获取 这 些 值 ,代码 清单 2-17 中 加 粗 部 分 的 代码 是 对 mogdel . fit () 
回调 也 数 的 补充 ， 它 扩展 了 代码 清单 2-14 中 的 内 容 ， 可 以 展示 每 个 轮 次 习 得 的 权重 的 变化 。 稍 后 
将 逐步 讲解 这 里 的 API 调 用 。 

要 获取 给 定 模 型 的 内 部 权重 ,首先 需要 读 取 正确 的 层 。 这 一 点 很 容易 ， 因 为 这 个 模型 只有 一 
屋 ， 所 以 可 以 直接 通过 model .1ayers[0] 来 获取 该 层 的 内 容 。 然 后 ,通过 getweights () 进 一 
步 谈 取 内 部 的 权重 ， 其 会 返回 由 权重 组 成 的 和 矩阵。 对 密集 层 而 言 ， 返 回 的 矩阵 由 两 个 权重 组 成 ， 
它们 分 别 是 核 和 偏差 。 因 此 ， 可 以 用 以 下 代码 获取 正确 的 张 量 : 


> model.layers[0] .getWweights()1[0] 


得 到 正确 的 张 量 后 ， 就 可 以 调用 aata () 方 法 来 谈 取 其 中 的 内 容 。 由 于 GPU 和 CPU 间 的 通 
信 本 质 上 是 异步 的 ， 因 此 data () 调 用 也 是 异步 的 。 这 意味 着 最 后 返回 的 是 张 量 值 的 Promise 
对 象 ， 而 不 是 实际 值 。 在 代码 清单 2-17 中 ，Promise 链 的 then () 方 法 调用 了 一 个 回调 困 数 ， 
这 个 函数 将 张 量 值 绑 定 到 了 kernelAsArr 变量 上 。 取 消 对 console.1og() 的 注释 后 ， 每 个 轮 
次 都 可 以 在 控制 台中 看 到 打印 出 的 核 仁 ， 如 下 所 示 。 


> Float32Array (12) [-0.44015952944755554，0.8829045295715332， 
0.11802537739276886，0.9555914402008057，-1.64661931991257715， 
3.386948347091675, -0.36070501804351807， -3.0381457805633545,， 
1.4347705841064453, -1.3844640254974365, -1.4223048686981201,， 
-3.795234441757202] 


代码 清单 2-17 ”获取 模型 的 内 部 数据 

let trainLoss; 

let valLoss; 

awalt model.fit(tensors.trainFeatures, tensors.trainTarget, { 
batchSize: BATCH SIZE, 
epochs: NUM EPOCHS, 
validationSplit: 0.2, 
callbacks: { 

onEpochEnd: async (epoch, logs) => { 






























































await ui.updateStatus!l 
Epoch SsS{epoch + 1} of ${NUM EPOCHS} completed.  ); 
trainLoss = logs.1oss; 
valLoss = logs.val_ loss; 
awalit ui.plotData (epoch, trainLoss, valLoss).; 





model.layers[0] .getWeights()[0] .data() .then(kernelAsArr => { 
// console.log (kernelAsArr);} 
const weightsList = describeKerenelElements (kernelAsArr),，; 
ui.updateWeightDescription(weightsList);} 

}); 
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2.4.3 ”关于 可 解释 性 的 注意 事项 


图 2-13 中 的 权重 含义 很 丰 吝 。 通 过 观察 ， 你 可 能 会 党 得 模型 习 得 了 “住宅 平均 房间 数 ” 特 
征 与 房价 输出 是 正 相 关 的 ， 而 且 对 于 因 绝 对 值 较 低 而 未 上 榜 的 “ 房 龄 "， 与 绝对 值 徘 前 的 5 个 特 
征 相 比 ， 这 个 特征 对 房价 的 影响 较 小 。 你 之 所 以 会 这 么 想 , 是 因为 我 们 的 大 脑 喜 欢 讲 故 事 ， 也 就 
是 说 会 过 度 解 读 眼 前 的 信息 ， 并且 赋予 这 些 数 子 超出 其 客观 解释 能 力 的 含义 。 例 如， 当 两 个 输入 
特征 有 强 关 联 性 时 ， 这 类 的 分 析 就 会 失效 。 

现在 思考 一 种 情况 ， 假 设 因 为 意外 ， 同 样 的 特征 在 数据 集中 出 现 了 2 次 ,分 别称 为 FEATI1 
和 FEAT2。 如 果 这 两 个 特征 训练 习 得 的 权重 分 别 为 10 和 -5$， 这 时 你 可 能 倾 问 于 认为 增加 FEATI1 
会 导致 更 大 的 预测 输出 ， 而 FEAT2 则 相反 。 但 实际 情况 是 ， 两 者 是 完全 等 价 的 ， 即 使 它们 的 权 
重 互 换 ， 最 后 的 预测 输出 还 是 会 和 之 前 相同 。 

还 有 一 个 党 要 注意 的 事项 , 那 就 是 关联 不 代表 因果 。 假设 有 一 个 简单 的 模型 , 它 可 以 通过 房 
项 的 湿度 来 预测 下 雨 的 可 能 性 。 如 果 能 够 测量 房 项 的 湿度 , 那么 就 很 可 能 估计 过 去 一 小 时 的 降雨 
量 。 但 是 ， 我 们 不 能 往 传 感 硒 上 淫 点 水 ， 就 说 马上 要 下 十 



































2.5 练习 


(1) 本 章 之 所 以 首 匈 介绍 示例 1， 是 因为 其 数据 大 致 古 线性 的 ， 而 其 他 数据 集 在 训练 时 会 有 不 
同 的 损失 平面 和 拟 合 方式 。 你 可 以 试 春 将 其 中 的 数据 符 换 成 目 己 的 数据 , 然后 探索 模型 会 有 哪些 变 
化 。 也 可 以 答 试 不 同 的 学 习 率 、 初 始 化 方法 或 标准 化 方法 ， 碍 看 模型 会 不 会 产生 不 同 的 拟 合 绪 

(2) 2.3.5 下 中 用 大 量 篇 幅 介 绍 标准 化 的 重要 性 ， 以 及 如 何 对 输入 数据 进行 标准 化 ， 实 现 0 平 
均值 和 单位 标准 差 。 你 可 以 修改 示例 程序 ， 删 挥 标准 化 部 分 ， 检查 模型 是 否 还 能 正 第 训练 。 同 时 
还 可 以 修改 标准 化 函数 ， 让 输入 数据 的 平均 值 不 再 为 0， 或 标准 差 小 于 单位 标准 差 。 执 行 这 些 标 
准 化 操作 后 ， 你 会 发 现 有 时 仍 能 正 第 训练 模型 ， 有 时 训练 无 法 收 钱 。 

(3) 在 波士顿 房价 数据 集中 ， 有 些 特征 的 预测 能 力 明 显 比 其 他 特征 的 更 强 。 而 有 些 特征 在 菏 
种 程度 上 甚至 是 噪声 ， 其 中 不 包含 任何 对 预测 房价 有 益 的 信息 。 现 在 如 打 要 移 除 一 些 特征 ， 只 保 
留 一 个 预测 能 力 最 强 的 , 那么 应 该 是 哪个 特征 呢 ? 如 末 只 保留 两 个 特征 呢 ? 答 试 修改 波士顿 房价 
预测 示例 的 代码 ， 探 索 不同 特 征 的 预测 能 

(4) 描述 在 利用 梯度 下 降 算 法 优化 模型 时 ， 如 何以 优 于 随机 的 方式 来 更 新 权重 ? 

(5) 图 2-13 中 展示 了 运行 波士顿 房价 预测 模型 后 ,得 到 的 5 个 绝对 值 较 大 的 权重 。 尝 试 修改 
代码 ,这 次 让 程序 打印 权重 较 小 的 特征 。 想 象 一 下 ， 为 什么 这 些 权 重 比 较 小 ”如 琳 有 人 问 起 这 些 
权重 的 判断 依据 ， 如 何 进行 解释 ? 为 外 ， 在 解释 权重 意义 时 ， 有 哪些 需要 注意 的 事项 ? 



































2.6 小结 


口 构建 、 训 练 和 评估 一 个 简单 的 机 妖 学 习 模 型 并 不 难 ， 在 TensorFlow.js 中 ， 只 需要 5 行 
JavaScript 代码 即 可 。 
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口 梯度 下 降 算 法 是 深度 学 习 背 后 的 根本 算法 。 它 在 概念 上 非常 简单 ， 就 是 指 在 可 以 改进 模 
型 拟 合 的 方向 上 ， 不 断 小 幅度 更 新 模型 的 参数 。 

口 模型 的 损失 平面 描述 了 模型 在 不 同 参数 组 合 下 的 拟 合 程度 。 由 于 参数 空间 是 高 维度 的 ， 
因此 计算 损失 平面 通 篆 并 不 现实 。 但 是 它 非 稼 二 观 ， 有 助 于 理解 机 融和 学 习 的 工作 原理 。 

口 单个 密集 层 已 经 足以 解决 一 些 简 单 的 问题 ， 在 房价 预测 问题 中 也 有 不 错 的 表现 。 











添加 非 线 性 : 升级 加 权 和 





本 章 要 点 
口 非 线 性 的 定义 ， 以 及 利用 神经 网 络 隐藏 层 中 的 非 线 性 ， 来 优化 网 络 性 能 并 提高 其 预测 准 
确 率 的 方法 。 


口 超 参 数 的 定义 以 及 调整 超 参数 的 方法 。 
口 以 钓鱼 网 站 检测 为 例 ， 在 输出 层 加 入 非 线 性 ， 解 决 二 分 类 问题 。 
口 以 高 尾 花 数据 集 为 例 ， 介 绍 多 分 类 问题 及 其 与 二 分 类 问题 的 区 别 。 





以 第 2 章 介 绍 的 内 容 为 基础 ,在 本 章 中 ,神经 网 络 将 学 习 更 复杂 的 从 特征 到 标签 的 映射 关系 。 
本 章 的 主要 改进 是 引入 了 非 线 性 ( nonlinearity )， 这 是 一 种 输入 到 输出 的 映射 关系 。 与 之 前 简单 
地 计算 输入 元 素 的 加 权 和 不 同 , 非 线性 会 增强 神经 网 络 的 表示 能 力 ， 而 且 如 果 使 用 得 当 , 它 可 以 
提高 各 种 预测 任务 的 准确 率 。 本 童 继 续 泊 用 波士顿 房价 数据 集 来 介绍 非 线 性 的 作用 , 同时 也 会 深 
入 探讨 过 拟 合 〈 overfitting ) 和 欠 拟 合 (underfitting ) 这 两 个 现象 ， 从 而 让 训练 模型 既 能 在 训练 集 
上 表现 优异 ， 也 能 在 未 知 数据 上 实现 高 准确 率 ， 这 也 是 衡量 模型 质量 的 关键 所 在 。 


3.1 非 线 性 的 定义 及 其 优势 


现在 继续 探讨 第 2 章 的 波士顿 房价 预测 示例 。 之 前 的 模型 使 用 了 单个 密集 层 ， 当 模型 经 过 训 
练 后 ， 由 其 计算 的 均 方 误差 对 应 的 误差 范围 约 在 5000 美元 以 内 。 模 型 还 有 改进 空间 吗 ? 答案 是 
肯定 的 。 为 了 进一步 改进 波士顿 房价 预测 模型 , 需要 再 添加 一 个 密集 层 , 如 代码 清单 3-1 所 示 ( 摘 
日 boston-housing 文件 夹 下 的 index.js 文件 )。 


代码 清单 3-1 为 波士顿 房价 预测 任务 定义 双 层 神经 网 络 























export function multiLayerPerceptronRegressionModellHidden() f{ 
Const model = tf.sequential(); 
model.add (tf.layers.densel(t{ 旨 定 初始 化 核 值 的 方式 。 参 见 
inputShape: [bostonData.numFeatures], 3.1.2 节 中 关于 如 何 通 过 优化 
0 超 参数 来 选择 核 值 的 讨论 
activation: 'sijgmoid', 


kernelIinitializer: 'lJ]eCunNormal' 


})); 
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model .add (Ci Layere dense(Uunltsr 1)))> 二 添加 隐藏 层 
Medel Summary (> 
return > 打印 模型 拓扑 结构 

的 文本 报告 





正如 第 2 草 所 言 ， 可 以 匈 运 行 yarn && yarn watch 命令 ， 局 动 模型 的 Web 应 用 程序 。 当 
打开 网 页 之 后 ， 单 击 界 面 上 的 “Train Neural Network Regressor (1 Hidden Layer)” 按 钮 ， 启 动 模 
型 的 训练 。 

该 模型 是 一 个 双 层 的 网 络 。 第 一 层 是 拥有 50 个 单元 ( 神经 元 ) 的 密集 层 ,， 使 用 自 定 义 的 激 
活 晒 数 和 核 初 始 化 硕 (initializer )， 人 参见 3.1.2 节 。 该 层 是 一 个 隐藏 层 (hidden layer )， 其 输出 在 
模型 外 是 不 可 见 的 。 第 二 层 是 使 用 默认 激活 冰 数 (线性 激活 另 数 ) 的 密集 层 ， 其 结构 与 第 2 草 使 
用 的 纯 线 性 模型 完全 相同 。 该 层 是 一 个 输出 层 , 其 输出 就 是 模型 的 最 终 输出 ,也 是 模型 breqict () 
方法 的 返回 值 。 注 章 ， 这 里 模型 在 代码 中 对 应 的 济 数 名 称 为 多 层 感知 机 (multilayer perceptron， 
MLP )。 用 这 个 术语 描述 的 神经 网 络 通常 具有 两 个 特征 : 第 一 ， 它 有 一 个 简单 的 无 环 拓 扑 结 构 ， 
也 就 是 说 它 属于 前 馈 神 经 网 络 ( feedforward neural network ); 第 二 ， 它 至 少 有 一 个 隐 汀 屋 。 本 昔 
将 介绍 的 所 有 模型 都 满足 这 了 两 点 。 

代码 清单 3-1 中 调用 了 新 的 model .summary () 方 法 ， 它 是 一 个 生成 模型 报告 的 工具 ， 可 以 
在 控制 人 台 ( 浏览 帮 目 种 的 开发 者 工具 或 Node.js 的 标准 输出 均 可 ) 中 打印 TensorFlow.js 模型 的 拓 
扑 结 构 。 上 述 双 层 模 型 生成 的 拓扑 结构 报告 如 下 : 



































Layer (type) Output shape Param # 
dense Densel (Dense) [null,50] 650 
dense Dense2 (Dense) [null,1] 51 











Total params: 701 
Trainable params: 701 
Non-trainable params: 0 


其 中 主要 包含 以 下 关键 信息 。 

口 各 层 的 名 称 与 类 型 (第 1 列 )。 

口 各 层 的 输出 形状 (第 2 列 )。 这 些 形状 的 第 一 个 ( 批 次 ) 维度 几乎 总 是 nul1， 代 表 其 批 
次 尺寸 是 待定 且 可 变 的 。 

口 各 层 权 重 参 数 的 总 数 (第 3 列 )。 它 表示 组 成 该 层 权 重 的 所 有 参数 的 个 数 ， 对 包含 多 个 权 
重 的 层 而 言 ， 则 表示 所 有 权重 的 参数 的 总 和 。 例 如 ， 本 示例 中 的 第 一 个 密集 层 包 含 两 个 
权重 ， 其 中 一 个 是 形状 为 [12,，50] 的 核 ， 男 一 个 是 形状 为 [50] 的 偏差 ;也 就 是 说 ,该 层 
共有 650 个 参数 ( 12 x 50 + 50 = 650 )。 

口 模型 的 权重 参数 、 可 训练 参数 以 及 不 可 训练 参数 对 应 的 总 数 ( 位 于 报告 的 最 底部 )。 我 们 
目前 上 只 见 过 可 训练 的 参数 ， 在 调用 tf .Mogdel .fit() 时 ， 这 部 分 模型 权重 会 更 新 。 第 5 
章 在 讨论 迁移 学 习 以 及 模型 的 微调 方法 时 ， 会 介绍 不 可 训练 的 权重 。 
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对 于 第 2 章 的 纯 线性 模型 ， 其 调用 model .summary () 后 输出 的 拓扑 结构 报告 如 下 。 与 线性 
模型 相 比 , 本 章 的 双 层 模型 包含 的 权重 参数 是 前 者 的 S4 倍 ,其 中 绝 大 部 分 来 自 新 添加 的 隐藏 层 。 








Layer (type) Output shape Param t# 





dense Dense3 (Dense) [nal ;| 13 








Total params: 13 





Trainable params: 13 
Non-trainable params: 0 


双 层 模型 较 之 前 包含 更 多 的 层 与 权重 参数 , 因此 其 训练 和 推 汤 会 消耗 更 多 的 算 力 与 时 间 。 但 
是 , 这 样 大 费 周 章 地 提高 准确 率 是 否 值得 呢 ? 该 模型 在 训练 200 个 轮 次 后 ,最 终 测试 集 上 获得 的 
均 方 误差 取 值 范围 是 14 ~ 15《〈 准确 数 字 因 初始 化 的 随机 性 而 不 同 )， 这 与 之 前 在 测试 集 上 得 到 的 
损失 〈25 ) 相 比 ， 确 实 有 很 大 的 进步 。 这 样 一 来 ， 新 异型 的 计算 误差 取 值 范围 是 3700 ~ 3900 类 
元 ， 与 线性 模型 的 5000 美元 相 比 获得 了 极 大 的 改进 。 


3.1.1 直观 地 理解 神经 网 络 中 的 非 线 性 


为 什么 准确 率 会 提升 呢 ?” 如 图 3-1 所 示 ， 关 键 在 于 模型 增加 的 复杂 上 度 。 首 先 ， 现在 多 了 一 层 
神经 元 ， 即 隐藏 层 。 其 次 ， 隐 茂 层 包含 一 个 非 线性 激活 函数 〈 activation function )， 即 代码 中 定义 
的 activation: 'sigmoid'， 在 图 3-lb 中 用 正方 形 表示 。 激活 函数 "表示 不 同 元 素 的 转换 。 
sigmoid 旺 数 是 一 种 “ 挤 压 式 ”的 非 线 性 ， 可 以 将 所 有 实数 〈 负 无 穷 至 正 无 穷 ) “ 挤 压 ”到 一 个 小 
得 多 的 范围 (这 里 是 0.0 ~ 1.0 ), 图 3-2 展示 了 它 的 公式 与 图 表 。 现在 以 隐藏 的 密集 层 为 例 , 假设 
矩阵 乘法 加 上 伺 差 后 的 结 采 是 一 个 二 维 张 量 ， 其 值 是 由 以 下 随机 数值 组 成 的 矩阵 。 


| lo.5ls sosy L001 


那么 要 获得 该 密集 层 的 最 终 输 出， 可 以 通过 对 和 矩阵 中 的 50 个 元 素 逐 个 调用 sigmoid ( 简写 
为 S) 函数 来 实现 。 


天 



































中 激活 函数 一 词 源 自 对 后 物 神经 元 的 研究 。 和 后 物 神经 元 通过 动作 电位 ( action potential )， 也 就 是 在 细胞 膜 上 激发 电 
压 , 实现 互相 之 间 的 通信 。 生物 神经 元 通常 会 通过 名 为 突 触 ( synapse ) 的 接触 点 接收 来 自 很 多 上 游 神 经 元 的 信号。 
上 游 神经 元 会 以 不 同 的 频率 激发 动作 电位 ， 从 而 释放 神经 递 质 ( neurotransmitter )， 并且 打开 (或 关闭 ) 突 触 离 子 
通道 , 这 将 进一步 导致 接收 并 神 经 元 细胞 膜 上 电压 的 变化 。 这 其 实 和 密集 层 中 一 个 单元 所 进行 的 加 权 和 非常 相似 ， 
只 有 当 电 压 超 过 一 定 国 值 时 ， 接 收 疹 神经 元 才 会 真正 产生 动作 电位 ， 也 就 是 被 “激活 ”， 然 后 进一步 影响 下 游 神 
经 元 的 状态 。 从 这 个 角度 来 看 ， 普 通 生 物 神经 元 的 激活 困 数 与 ReLU 因数 (图 3-2 右 ) 非常 类 似 。ReLU 本 数 在 输 
人 未 达到 一 定 国 值 前 输出 为 0〈 处 于 “死人 区 ”)， 当 超过 靖 值 后 会 随 者 输入 线性 增长 ， 直 到 达到 某 个 饱和 级 别 〈 图 
中 没有 显示 )。 
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b. 双 层 神经 网 络 
加 模型 【 含 非 线性 
a. 线性 回归 模型 激活 函数 ) 





图 3-1 波士顿 房价 数据 集 使 用 的 线性 回归 模型 ( 图 3-1a ) 和 双 层 神经 网 络 模 型 ( 图 3-lb )。 为 
了 人 简化 示意 图 ， 此 处 将 输入 的 特征 从 12 变 成 了 了 3， 图 3-1b 中 隐藏 层 的 单元 从 50 变 成 了 
5$。 因 为 模型 要 解决 的 是 单 变 量 〈 单 个 目标 数字 ) 的 回归 问题 ， 所 以 两 个 模型 都 只 有 单 
个 输出 单元 。 为 外 ， 图 3-1b 展示 了 模型 隐藏 层 的 非 线 性 激活 函数 ( sigmoid 函数 ) 














为 什么 这 个 孔 数 是 非 线 性 ( nonlinear ) 的 呢 ?” 图 中 很 百 观 地 展示 了 这 一 点 ,激活 函数 的 图 像 
并 不 是 一 条 直线 。 比 如 ，sigmoid 也 数 的 图 像 是 一 条 曲线 (图 3-2 左 )，ReLU 因数 的 图 像 是 两 个 
线段 的 拼接 (图 3-2 右 )。 尽 管 这 两 个 函数 者 是非 线性 的 ， 但 是 它们 都 有 一 个 属性 ， 即 函数 上 的 
每 一 点 都 是 光滑 且 可 微 的 ", 这 样 才 可 以 通过 它们 进行 反问 传 播 算法 ”。 如 果 激 活 也 数 不 具备 这 个 
属性 ， 就 无 法 训练 由 包含 它 的 神经 层 构 成 的 模型 。 
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图 3-2 深度 神经 网 络 中 两 个 常用 的 非 线 性 激活 函数 示意 图 。 左 侧 是 sigmoid 格 
数 ， 表 达 式 为 S(x) = 1 / (1 + e ^ -x); 右 侧 是 ReLU 员 数 ， 表 
达 式 为 relu (x) = {0 : 文 <0,x : x >= 0} 


ReLU 函数 在 x = 0 处 其 实 是 不 可 微 的 ， 但 是 在 实践 中 一 般 会 从 其 次 导数 的 范围 0~1 内 选择 一 个 数字 作为 此 处 的 
导数 。 译 者 注 
@) 参见 2.2.2 节 关于 反问 传播 算法 的 介绍 。 
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除了 sigmoid 困 数 ， 深 度 学 习 中 还 有 其 他 几 种 篆 用 的 可 微 非 线性 晒 数 ， 包 括 ReLU 函数 和 双 
曲 正 切 函 数 (hyperbolic tangent， 人 简称 tanh )。 当 后 面 的 示例 中 出 现 这 个 函数 时 ， 我们 会 对 它 进行 
详细 介绍 。 


1. 非 线 性 与 模型 容量 

为 什么 非 线 性 可 以 提升 模型 的 准确 率 ? 这 是 因为 非 线性 函数 可 以 让 模型 表示 更 多 样 的 输入 
与 输出 的 关系 。 现 实生 活 中 的 很 多 关系 是 接近 线性 的 ， 比 如 第 2 章 的 预测 下 载 所 需 时 间 问 题 , 但 
是 很 多 其 他 类 型 的 关系 并 非 如 此 。 其 实 ， 非 线性 关系 也 很 容易 理解 。 例 如 ， 人 的 号 高 与 年 龄 之 间 
怠 是 非 线性 关系 ， 只 有 在 特定 的 年 龄 段 内 ， 刁 高 与 年 龄 才 呈 现 线性 大 系 ， 之 后 随 春 年 龄 的 增长 ， 
映 蜗 的 变化 就 会 放 绥 ,最 后 几乎 不 再 发 生 任何 变化 。 为 外 ,房价 和 社区 犯罪 率 之 间 也 是 非 线 性 关 
系 , 只 有 当 社 区 犯罪 率 你 持 在 一 定 范 围 内 时 , 它 才 会 二 接 对 房价 造成 正面 或 负面 的 影响 。sigmoid 
呐 数 非 沼 适 合 处 理 这 种 问题 , 但 是 类 似 第 2 章 中 构建 的 纯 线 性 模型 就 不 能 准确 反映 这 种 关系 。 当 
然 ， 社区 犯罪 率 和 房价 之 间 的 关系 更 像 是 一 个 倒置 的 ( 呈 下 降 趋 势 的 ) sigmoid 函数 ， 并 不 是 该 
呐 数 原本 的 形状 ( 图 3-2 左 侧 的 函数 )。 由 于 当前 神经 网 络 使 用 的 sigmoid 函数 前 后 是 拥有 可 调 权 
重 的 线性 函数 ， 因 此 并 不 能 反映 这 种 关系 。 

但 是 ， 如 末 将 线性 激活 函数 蔡 换 成 sigmoid 这 样 的 非 线 性 激活 函数 ， 桂 型 是 否 会 因此 无 法 再 
学 习 数 据 中 的 线性 关系 呢 ?” 季 运 的 是 ， 当 然 不 会 。 这 是 因为 sigmoid 函数 ( 尤其 是 中 间 的 部 分 ) 
非 稼 接近 于 一 条 直线 。 其 他 第 用 的 非 线性 激活 函数 也 包含 线性 或 者 非常 接近 线性 的 部 分 ， 例 如 
tanh 困 数 和 ReLU 函数 。 如 打 某 些 输 入 元 系 与 输出 元 素 之 间 呈 现 大 致 的 线性 关系 ,那么 对 使 用 非 
线性 激活 函数 的 密集 层 而 言 ， 通 过 学 习 恰 当 的 权重 和 偏差 来 充分 利用 激活 函数 中 接近 线性 的 部 
分 ， 这 是 很 有 可 能 实现 的 。 因 此 ,在 密集 层 添加 非 线性 激活 函数 ， 有 助 于 模型 学 习 所 需 的 各 种 输 
入 与 输出 的 天 系 。 

除 此 之 外 ， 与 线性 函数 不 同 ， 不 同 的 非 线 性 函数 可 以 通过 级 联 获 得 更 多 种 类 的 非 线 性 函数 。 
这 里 级 联 (cascade ) 指 将 一 个 函数 的 输出 作为 下 一 个 函数 的 输入 。 假 设 有 如 下 两 个 线性 孙 数 : 



























































f(x) = kl * x + bl 

g(x) = k2 * x + b2 

级 联 这 两 个 函数 意味 者 定义 一 个 新 洱 数 h: 

h(x) = g(f(x)) = k2 * (kl * x + bl) + b2 = (k2 * KL) *x+ (k2 * bl + b2) 


可 以 看 到 ，h (x) 仍 是 一 个 线性 函数 ， 只 不 过 相 比 之 前 的 f(x) 和 g (x) ， 核 〈 和 斜率 ) 和 偏差 
( 截 距 ) 取 值 不 同 而 已 。 它 的 斜率 变 为 了 (k2 * k1)， 偏差 变 为 了 (k2 * bl + b2)。 无 论 级 联 
多 少 个 线性 范 数 ， 最 后 的 结果 仍 是 线性 函数 。 

但 是 ， 再 来 看 看 非 线性 激活 函数 ReLU。 如 图 3-3 下 半 部 分 所 示 ， 这 里 级 联 了 两 个 经 过 线性 
缩放 的 ReLU 函数 ， 结 果 得 到 的 函数 与 ReLU 函数 完全 不 同 。 它 的 形状 也 和 之 前 不 同 ， 新 形状 有 
两 个 平坦 区 域 , 中 间 用 呈 下 降 趋势 的 线段 连接 。 如 果 进 一 步 将 这 个 阶 跃 浮 数 与 其 他 ReLU 辆 数 级 
联 ， 得 到 的 子 数 将 更 为 不 同 。 比 如 “窗口 ”了 艺 数 ， 就 是 由 多 个 窗口 形状 组 成 的 函数 ,或 者 类 似 在 
大 窗口 上 三 加 小 窗口 的 函数 等 。ReLU 是 最 常用 的 激活 函数 之 一 ， 级 联 类 似 这 样 的 非 线 性 函数 ， 
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可 以 得 到 种 类 繁多 的 函数 形状 。 但 这 些 到 的 和 神经 网 络 有 什么 关系 呢 ?” 从 本 质 上 讲 , 神经 网 络 就 
征明 数 的 级 联 。 神 经 网 络 的 每 一 层 都 可 以 看 作 一 个 因数 , 将 这 些 层 全 加 在 一 起 就 意味 看 级 联 这 些 
胃 数 ,这 样 得 到 的 更 复杂 的 函数 就 是 神经 网 络 。 这 也 就 清楚 地 解释 了 非 线性 激活 函数 的 优势 , 那 
怠 是 在 模型 学 习 输 入 与 输出 之 间 的 天 系 时 , 能够 习 得 更 多 的 图 数 类 型 。 同 时 对 于 “再 给 深度 神经 
网 络 加 些 层 "， 你 也 能 够 在 观 地 理解 这 一 第 用 技巧 背后 的 思想 ， 以 及 它 能 够 让 模型 更 好 地 学 习 数 
据 集 (但 不 一 定 一 下 如 此 ) 的 原因 。 




















级 联 线性 项 数 
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i ES 
0.5 
级 联 非 线 性 项 数 
f(xw}) = relu{(2 +* = relutl — ~) = relu(l 一 relu{2 x XxX)) 


- 斗 -一 : Eee》 


图 3-3 限 数 (上 半 部 分 ) 和 级 联 非 线性 函数 〈 下 半 部 分 )。 级 联 线性 函数 的 
结果 永远 是 线性 孙 数 ,新 函数 有 看 新 的 斜率 和 截 距 。 级 联 非 线性 函数 ( 如 本 示 
例 中 的 ReLU 函数 ) 会 得 到 拥有 新 形状 的 非 线性 函数 ， 比 如 图 中 “于 下 的 阶 跃 
胃 数 "。 这 佐证 了 在 神经 网 络 中 使 用 〈 或 级 联 ) 非 线 性 激活 函数 可 以 增强 模型 
的 表示 能 力 〈 容量 


机 带 学 习 模 型 的 容量 ( capacity ) 通常 是 指 ， 模 型 能 够 学 习 的 输入 和 输出 关系 的 邦 围 。 通 过 
之 前 关于 非 线性 的 讨论 可 知 ,， 对 于 拥有 隐 泸 层 和 非 线 性 激活 阴 数 的 神经 网 络 , 其 容量 要 大 于 线性 
回归 模型 的 容量 。 这 解释 了 为 什么 双 层 神经 网 络 能 够 比 线性 回归 模型 取得 更 好 的 测试 集 准确 率 。 

你 可 能 会 问 ， 既 然 级 联 非 线性 激活 函数 能 够 市 来 更 大 的 容量 ( 如 图 3-3 的 下 半 部 分 所 示 )， 
那么 能 和 否 通过 为 神经 网 络 添加 更 多 的 隐藏 层 , 来 进一步 提升 波士顿 房价 预测 模型 的 预测 能 力 呢 ? 
index.js 中 的 multiLayerPerceptronRegressionModel2Hidden () () 苹 数 可 以 实现 这 一 点 ， 这 
个 函数 对 应 的 是 界面 中 名 为 “Train Neural Network Regressor (2 Hidden Layers)” 的 按钮 。 如 代码 
清单 3-2 所 示 ( 摘自 boston-housing 文件 夹 下 的 index.js 文件 )。 
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代码 清单 3-2 ”为 波士顿 房价 预测 问题 定义 三 层 神经 网 络 


export function multiLayerPerceptronRegressionModel2Hidden() f{ 

Const model = tf.sequential(); 

model.add (tf.layers.densel(t{ 
inputShape: [bostonData.numFeatures], 
units: 50, 添加 第 一 个 
activation: 'sigmoid', 隐藏 层 
kernelIinitializer: 'leCunNormal' 

})); 





model.add (tf.layers.densel(t{ 


units: 50 ， 

再 添加 一 个 
activation: '!S1Lgmoldq'， 隐藏 层 
kernelInitializer: ' ecCunNormal'， ee 





})); 
model.add (tf.layers.dense({units: 1}));} 


| 打印 模型 拓扑 结 


ey model; 构 的 文字 报告 


通过 summary () 打 印 出 的 模型 拓扑 结构 ( 此 处 没有 展示 ) 可 以 看 出 ， 模 型 包含 3 层 ， 比 代 
码 清 单 3-1 中 的 模型 要 多 一 层 。 另 外 ， 它 有 3251 个 参数 ， 相 比 前 面 双 层 神经 网 络 的 701 个 参数 ， 
在 数量 方面 有 了 巨大 提升 。 这 里 多 出 来 的 2550 个 权重 参数 是 因为 加 入 了 第 2 个 隐藏 屋 ， 该 隐藏 
层 由 形状 为 [50，50] 的 核 和 形状 为 [501 的 偏差 组 成 。 

重复 多 次 训练 模型 , 就 可 以 得 到 三 层 神 经 网 络 在 最 终 评 估 用 的 测试 集 上 的 均 方 误差 的 大 致 苑 
围 ， 即 10.8 ~ 13.4。 与 此 对 应 的 价格 预测 偏差 为 3280 ~ 3660 美元 ， 相 比 双 层 神 经 网 络 的 3700 ~ 
3900 美元 取得 了 进步 。 也 就 是 说 ， 通 过 添加 非 线性 的 隐藏 层 ， 我 们 再 一 次 成 功 地 提升 了 模型 的 
预测 准确 率 ， 并 且 扩 展 了 它 的 容量 。 


2. 避免 只 增加 层 而 不 增加 非 线性 的 廖 误 

还 有 一 种 方法 可 以 证 明 非 线性 激活 函数 对 改进 后 的 淫 士 顿 房价 预测 模型 的 重要 性 , 那 就 是 将 
其 从 模型 中 移 除 。 除 了 注释 反 了 sigmoid 激活 肾 数 外 ， 代 码 清 单 3-3 和 代码 清单 3-1 完全 一 样 。 
删除 自 定义 激活 孔 数 ,会 使 该 层 使 用 默认 线性 激活 函数 。 模 型 的 其 他 部 分 都 没有 改变 ， 包括 层 数 
与 权重 参数 。 


代码 清单 3-3 ”不 包含 非 线性 激活 函数 的 双 层 神经 网 络 

















export function multiLayerPerceptronRegressionModellHidden() f{ 
Const model = tf.sequential(),; 
model.add (tf.layers.densel(t{ 
inputShape: [bostonData.numFeatures], 
units: 50, 
// activation: ‘sigmoid', < 一 禁用 非 线 性 激活 函数 
kernelIinitializer: 'leCunNormal' 


})); 
model.add (tf.layers.dense({units: 1}));} 


model .summary () ; 
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return model; 


}; 

这 会 对 模型 学 习 造 成 什么 影响 呢 ?” 如 果 再 次 单 击 “Train Neural Network Regressor (1 Hidden 
Layer) ”按钮 就 会 发 现 , 测试 集 上 的 均 方 误差 上 升 至 接近 25, 与 移 除 sigmoid 激活 函数 之 前 的 14 ~ 
15 相 比 ， 这 个 结果 退步 了 不 少 。 换 言 之 ， 如 果 不 使 用 sigmoid 激活 函数 ， 双 层 神经 网 络 就 和 单 层 
线性 回归 模型 没什么 两 样 ! 

这 验证 了 我 们 先前 对 于 级 联 疆 性 函数 的 推 师 。 从 第 1 层 移 除 非 线性 激活 函数 后 , 所 得 的 模型 
就 成 了 两 个 线性 也 数 的 级 联 。 正 如 前 面 所 展示 的 ， 其 结果 就 是 为 一 个 线性 函数 ,模型 容量 不 会 有 
任何 增长 。 因 此 , 不 出 所 料 ， 最 后 的 测试 性 能 和 线性 模型 的 几乎 一 样 。 这 就 引出 了 构建 多 层 神经 
网 络 时 的 一 个 常见 注音 事项: 必须 在 隐藏 层 中 添加 非 线 性 激活 函数 。 如 采 不 这 人 么 做 ,就 会 导致 计 
算 资 源 与 时 间 的 浪费 ， 以 及 潜在 的 计算 上 的 不 稳定 性 ( 仔细 观察 图 3-4b 中 波动 幅度 较 大 的 损失 
曲线 )。 随 后 可 以 看 到 ， 这 一 点 不 仪 适用 于 密集 层 ， 而 且 适 用 于 其 他 类 型 的 层 ， 例 如 卷 积 层 。 
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图 3-4 ”比较 使 用 sigmoid 激活 子 数 的 结果 (图 3-4a ) 与 不 使 用 sigmoid 激活 子 数 的 结 
条 (图 3-4b )。 注意 , 移 除 sigmoid 激活 函数 后 ,模型 在 训练 集 、 验 证 集 和 测试 
集 上 的 最 终 损失 值 都 升 高 了 (退回 到 和 之 前 的 纯 线 性 模型 相当 的 水 平 )， 其 损 
失 曲 线 也 变 得 更 加 不 平 消 。 还 有 一 点 需要 注意 ， 这 两 张 图 的 y 轴 比例 是 不 同 的 











3. 非 线 性 与 模型 可 解释 性 

第 2 章 中 提 到 ， 当 线性 模型 在 波士顿 房价 数据 集 上 完成 训练 后 ， 就 可 以 查看 它 的 权重 ， 并 
且 以 较 合 理 的 方式 解释 其 中 每 个 参数 。 例 如 ,“ 住 宅 平 均 房 间 数 ”对 应 特征 的 权重 值 为 正 ,“ 犯 
罪 率 ” 对 应 特征 的 权重 值 为 负 。 这 些 权 重 的 正 负 反映 了 房价 与 对 应 特征 的 预期 关系 ( 正 相 关 或 
负 相 关 )， 它们 的 绝对 值 反 映 了 对 应 特征 相对 于 模型 的 重要 性 。 基 于 本 章 所 介绍 的 内 容 ， 可 以 思 
考 这 个 问题 : 在 包含 一 个 或 多 个 隐藏 层 的 非 线 性 模型 中 ， 可 能 获得 其 他 有 关 权 重 值 的 直观 且 易 
于 理解 的 解释 吗 ? 
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非 线 性 模型 与 线性 模型 获取 权重 值 的 API 是 完全 相同 的 , 只 需 在 模型 对 象 上 或 属于 它 的 层 对 
象 上 调用 getweights () 即 可 。 以 代码 清单 3-1 中 的 多 层 感知 机 为 例 ， 可 以 在 模型 训练 结束 后 插 
入 下 面 的 代码 ， 即 紧 接 着 model .fit () 调 用 : 


model.layers[0] .getWeights() [0] .print(); 


该 行 会 打印 出 第 1 层 (隐藏 层 ) 的 核 值 ， 这 是 模型 的 4 个 权重 张 量 之 一 。 其 他 3 个 权重 张 量 
涉及 隐藏 层 的 偏差 ， 以 及 输出 层 的 核 与 偏差 。 还 有 一 点 需要 注意 ， 此 处 打印 的 核 尺寸 要 大 于 之 前 
线性 模型 的 核 尺寸 





























Tensor 
[[-0.5701274, -0.1643915, -0.0009151, ...,， 0.313205 ， -0.3253246|]， 
[-0.4400523, -0.0081632, -0.2673715, ...,， 0.1735748 ， 0.0864024 |]， 
[0.6294659 ， 0.1240944 ， -0.2472516, ...,， 0.2181769 ，0.1706504 |]， 
[0.9084488 ， 0.0130388 ， -0.3142847, ...,， 0.4063887 ，0.2205501 |]， 
[0.431214 ，,， -0.5040522, 0.1784604 ，...，0.3022115 ， -0.1997144]， 
[-0.9726604, -0.173905 ，0.8167523 ，...,， -0.0406454, -0.4347956]， 
[-0.2426955, 0.3274118 ，-0.3496988，...，0.5623314 ，0.2339328 |]， 
[-1.6335299, -1.1270424, 0.618491 ，...，-0.08688871，-0.41492151]， 
[-0.1577617, 0.4981289 ， -0.1368523，...，0.3636355 ， -0.0784487]， 
[-0.5824679, -0.1883982, -0.4883655, ...,， 0.0026836 ，-0.0549298 1] ， 
[-0.6993552, -0.1317919, -0.4666585,， ...,， 0.2831602 ， -0.2487895],， 
[0.0448515 ， -0.6925298, 0.4945385 ，...,， -0.3133179, -0.0241681]|] 








这 征 因 为 隐藏 层 由 50 个 单元 组 成 ， 这 意味 春 其 权重 太 才 为 [18，50]。 该 核 有 900 个 单独 的 
权重 参数 ， 而 线性 模型 的 核 有 12 + 1 = 13 个 参数 。 每 个 权重 参数 都 有 其 实际 意义 吗 ? 一 般 而 言 ， 
答案 是 否定 的 ， 主 要 是 因为 很 难 去 界定 隐藏 层 的 50 个 输出 分 别 象征 的 意义 。 创 建 这 些 高 维 空间 
维度 是 为 了 让 模型 能 够 在 其 中 学 习 〈 目 动 探索 ) 非 线性 关系 。 人 脑 并 不 擅长 处 理 像 这 样 高 维度 空 
间 中 的 非 线性 关系 。 一 般 而 言 , 要 用 客 守 数 语 通俗 地 描述 隐藏 层 中 每 个 单元 的 作用 是 非常 困难 的 ， 
更 别 说 解释 它们 如 何 促成 深度 神经 网 络 的 最 终 预 测 了 。 

为 外 还 需要 注意 ， 此 处 讨论 的 模型 只 有 一 个 隐藏 屋 。 如 果 有 多 个 隐藏 层 合 加 在 一 起 ( 如 代码 
清单 3-2 中 定义 的 模型 )， 那 么 这 些 非 线性 关系 会 变 得 更 加 星 深 且 难 以 描述 。 尺 管 研 究 者 仍 在 尝 
试 找到 更 好 的 方式 解释 深度 神经 网 络 隐藏 层 的 含义 "， 并 且 有 些 模型 类 型 已 经 取得 了 一 些 进展 ”， 
但 是 ,与 浅 层 神 经 网 络 和 特定 类 型 的 非 神 经 网 络 机 融 学 习 醒 型 〈《 比如 决 案 树 ) 相 比 ， 闪 度 神经 网 
络 更 难以 解释 ,这 是 组 庸 置疑 的 。 选 择 深 度 模 型 而 不 是 浅 层 模型 ， 本质 上 是 牺牲 一 些 可 解释 性 来 
换取 更 大 的 醒 型 容量 。 


3.1.2” 超 参 效 与 超 参数 优化 
代码 清单 3-1 和 代码 清单 3-2 中 关于 隐藏 层 的 讨论 都 聚焦 于 非 线性 激活 函数 (sigmoid 函数 ) 


















































GD 参见 Marco Tulio Ribeiro 、Sameer Singh 以 及 Carlos Guestrin 合作 发 表 的 文章 “Local Interpretable Model-Agnostic 
Explanations (LIME)—An Introduction  。 
@) 参见 Chris Olah 和 Arvind Satyanarayan 的 文章 “The Building Blocks of Interpretability ”。 





70 第 3 章 ”添加 非 线 性 : 升级 加 权 和 





然而 ， 隐 藏 层 中 还 有 其 他 一 些 配置 参数 ， 这 些 参数 同样 对 确保 从 模型 获得 好 的 训练 结果 非常 重 
要 ， 包 括 单元 的 数量 (50 ) 和 核 的 ' LecunNormal ' 初 始 化 。 后 者 是 一 种 能 根据 输入 的 尺寸 为 核 
生成 随机 初始 值 的 特 丈 方 法， 而 软 认 的 核 初 始 化 磊 〈 glorotNormalL" ) 会 同时 使 用 输入 和 输 
出 的 尺寸 ， 因 此 两 者 是 完全 不 同 的 。 那 么 思考 下 面 这 两 个 问题 ， 为 什么 使 用 这 个 自 定 义 核 初始 
化 右 ， 而 不 是 默认 核 初始 化 避 ?” 为 什么 使 用 50 个 单元 而 不 是 30 个 或 其 他 数量 的 单元 ”不 难 想 
象 ， 这 些 选 择 都 是 为 了 通过 不 断 答 试 不 同 的 参数 组 合 ， 来 确保 获得 性 能 尽 可 能 最 佳 或 者 至 少 接 
近 最 佳 的 模型 。 

像 单 元 数量 、 核 初始 化 套 以 及 激活 图 数 这 样 的 参数 都 属于 模型 的 超 参数 (hyperparameter )。 
“ 超 参 数 ” 标 志 着 这 些 参数 和 模型 的 权重 参数 是 截然 不 同 的 ， 权 重 参数 是 在 训练 时 通过 反问 传播 
实现 自动 更 新 ， 即 通过 model .fit() 调 用 。 与 此 不 同 的 是 ， 一旦 为 模型 选 定 了 超 参 数 ， 它 们 在 
训练 过 程 中 就 不 会 改变 , 超 参数 通常 会 决定 权重 参数 的 数量 与 尺寸 ( 比如 密集 层 的 units 属性 小 
权重 参数 的 初始 值 ( 比如 kernelInitializer 属性 )， 以 及 如 何在 训练 中 更 新 权重 参数 ( 比如 
传 给 Model .compile() 的 参数 的 optimizer 属性 )。 因 此 ,它们 要 比 权重 参数 高 一 个 层面 ， 故 
而 得 名 “ 超 参 数 ”。 

除了 层 的 尺寸 和 权重 初始 化 器 的 类 型 , 模型 和 它 的 训练 还 涉及 很 多 其 他 类 型 的 超 参数 , 包括 
但 不 限于 下 列 类 型 。 

口 模型 中 密集 层 的 数量 ， 比 如 代码 清单 3-1 和 代码 清单 3-2 中 的 示例 。 

口 密集 层 的 核 的 初始 化 融 类 型 。 

口 使 用 权重 正则 化 (参见 8.2 节 ) 所 需 设 定 的 正则 化 因子 。 

口 对 层 使 用 丢弃 法 ( dropout， 参 见 4.3 市 ) 所 需 设 定 的 丢弃 率 。 

口 训练 使 用 的 优化 锅 ， 比 如 ' sga' 与 'adam'， 参 见 信息 栏 3-1。 

口 训练 模型 的 轮 次 数 。 

口 优化 右 的 学 习 率 。 

口 随 春 训 练 的 进行 ， 逐 渐 减 小 学 习 率 所 需 设 定 的 减速 的 速率 。 

口 训练 的 批 次 尺寸 。 

上 面 最 后 5 个 例子 有 点 特殊 ， 它 们 本 质 上 与 模型 的 架构 无 关 ， 而 是 对 模型 训练 过 程 的 配置 。 
尽管 如 此 , 但 是 它们 仍 会 影响 训练 的 结果 ， 所 以 也 被 看 作 超 参 数 。 其 实 对 于 那些 由 更 多 不 同类 型 
的 层 组 成 的 模型 ， 比 如 卷 积 层 ( 参见 第 4 划 和 第 $ 章 ) 和 循环 层 〈 人 参见 第 9 章 )， 还 有 更 多 可 调 
的 超 参数 。 由 此 看 来 不 难 理解 , 即使 是 一 个 简单 的 深度 学 习 模 型 , 也 可 能 包含 很 多 可 调 的 超 参 数 。 

选择 合适 的 超人 参数 的 过 程 叫 作 超 参数 优化 (hyperparameter optimization ) 或 超 参 数 调 优 
(hyperparametertuning ), 由 在 找到 一 系列 能 使 训练 后 的 验证 集 损失 降 到 最 低 的 超 参 数 。 遗 憾 的 是 ， 
目前 还 没有 确定 的 算法 , 可 以 根据 数据 集 以 及 机 入 学 习 任 务 自 动 找 出 最 佳 超 参 数 。 这 里 的 难点 在 
于 ,许多 超 参 数 是 离散 的 ， 因 此 验证 集 的 损失 对 于 它们 是 不 可 微 的 。 例如， 密集 层 中 单元 的 数量 
以 及 模型 中 密集 层 的 数量 都 是 整数 。 优 化 融 的 类 型 也 是 离散 的 分 类 参数 。 即 使 对 那些 连续 的 、 验 
证 集 损 失 对 其 可 微 的 超 参数 而 言 (比如 正则 化 因子 )， 在 训练 过 程 中 追踪 关于 超 参 数 的 梯度 的 变 
化 ， 这 个 过 程 的 计算 开销 通常 也 会 过 大 。 因 此 ,在 超 参数 空间 进行 梯度 下 降 算 法 是 不 现实 的 , 超 







































































3.2 输出 端的 非 线 性 : 分 类 任务 的 模型 77 


参数 优化 仍 是 一 个 值得 深度 学 习 从 业者 关注 的 、 活 跃 的 研究 领域 。 

超 参 数 优化 缺乏 标准 的 、 开 箱 即 用 的 方法 或 者 工具 ， 基 于 这 一 现状 , 深度 学 习 从 业者 一 般 遵 
循 下 面 3 个 策略 。 首 先 ， 如果 当 前 待 解 决 的 问题 和 已 彻底 解决 的 问题 类 似 ( 比如 本 书 中 探究 的 所 
有 示例 )， 那 么 就 可 以 对 当前 问题 应 用 类 似 的 模型 ， 并 “继承 ”其 中 的 超 参 数 。 之 后 ， 可 以 再 基 
于 “继承 ”的 起 点 ， 在 较 小 的 超 参 数 空间 中 搜索 合适 的 超 参数 。 

其 次 , 经 验 丰 富 的 从 业者 可 以 基于 直觉 对 当前 问题 应 该 使 用 的 超 参 数 做 出 合理 猜测 。 尽 管 在 
绝 大 多 数 情 况 下 ， 这 样 主观 选择 的 超 参 数 不 是 最 优 的 ， 但 是 对 后 续 微 调 来 说 是 不 错 的 起 点 。 

最 后 ， 对 于 只 有 一 小 部 分 超 参 数 需要 优化 的 情况 ( 比如 少 于 4 个 )， 可 以 采用 网 格 搜索 ( grid 
search ), 也 就 是 说 遍历 所 有 的 超 参数 组 合 , 针对 每 一 种 组 合 执行 完整 的 训练 流程 并 记录 在 验证 集 
上 的 损失 ,最 后 选用 能 带 来 最 低 验 证 损失 的 超 参 数组 合 。 假设 只 有 两 个 超 参 数 需 要 优化 ,它们 分 
别 是 密集 层 的 单元 数量 和 学 习 率 。 两 者 选择 的 集合 分 别 是 {10，20，50，100，200} 和 {1e-5， 
1e-4，1e-3，1e-2}， 将 这 两 个 集合 进行 义 积 ， 可 以 得 到 5 x 4 = 20 个 超 参数 组 合 ， 然 后 从 这 
20 个 组 合 中 搜索 最 优 组 合 。 如 果 你 要 自己 实现 网 格 搜索 方法 ， 其 伪 代 码 如 代码 清单 3-4 所 示 。 


代码 清单 3-4 用 简单 的 网 格 搜索 寻找 最 优 超 参数 的 伪 代 码 
function hyperparameterGridSearch(): 
for units of [10, 20, 50, 100, 200]: 
for learningRate of [le-5, le-4, le-3, le-2]: 
Create a model using whose dense layer consists of ‘units. units 
Train the model with an optimizer with ‘learningRate. 
Calculate final validation loss as validationLoss 





























jf validationLoss < minValidationLoss 


minValidationLoss := validationLoss 
bestUnits := units 
bestLearningRate := learningRate 


return [bestUnits, bestLearningRatel] 

这 些 超 参 数 的 范围 是 如 何 选择 的 呢 ? 对 此 , 深度 学 习 领 域 目前 也 没有 正式 的 答案 。 范 围 的 选 
择 通 常 基于 深度 学 习 从 业者 的 经 验 与 直觉 ， 同时 还 会 受到 计算 资源 的 约束 。 例 如， 如果 密集 层 的 
单元 过 多 ， 网 会 导致 模型 的 训练 速度 或 推 鄙 速度 过 慢 。 

通常 而 言 ,需要 优化 的 超 参 数 数量 远 不 止 上 面 示例 中 提 到 的 那些 , 其 所 需 的 计算 量 过 于 庞大 ， 
甚至 无 法 在 呈 指 数 级 增长 的 超 参 数组 合 上 进行 搜索 。 在 这 种 情况 下 , 应 该 使 用 比 网 格 搜索 更 高 级 
的 方法 ， 比 如 随机 搜索 ”"、 贝 时 斯 方法 "等 。 


3.2 ”输出 新 的 非 线性 : 分 类 任务 的 模型 


我 们 目前 所 见 的 两 个 示例 都 是 回归 任务 ， 它 们 的 预测 结果 都 是 一 个 数值 ， 比 如 下 载 任务 所 
需 时 间或 者 某 地 区 的 房价 。 分 类 任务 在 机 迄 学 习 中 也 很 常见 ， 有 些 分 类 任务 属于 二 分 类 (binary 

















GD 参见 James Bergstra 和 Yoshua Bengio 发 表 的 文章 “Random Search for Hyper-Parameter Optimization”。 
@) 参见 Will Koehrsen 发 表 的 文章 “A Conceptual Explanation of Bayesian Hyperparameter Optimization for Machine Learning”。 
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classification )， 主 要 面 癌 回答 “是 或 否 ” 这 类 问题 。 在 技术 领域 中 ， 这 类 任务 随处 可 见 ， 如 下 
所 示 。 

口 判断 邮件 是 否 为 垃圾 邮件 。 

口 判断 信用 卡 交 易 是 正常 交易 还 是 诈骗 行为 。 

口 判断 1 秒 时 长 的 声 首 样 本 是 否 包 含 特 定 的 单词 。 

口 判断 两 个 指纹 图 像 是 否 相 互 匹配 (来 自 于 同一 个 人 的 同一 根 手指 )。 

男 一 类 分 类 任务 是 多 分 类 ( multiclass classification ) 任务 ， 同 样 也 有 很 多 示例 。 

口 判断 报刊 上 文章 的 所 属 类 型 ， 比 如 人 和 体育、 天气、 游戏、 政治 或 其 他 话题 等 。 

口 判断 图 像 中 展示 的 内 容 ， 比 如 猫 、 狗 、 铲 子 或 其 他 事物 等 。 

口 根据 触 控 笔 产生 的 笔画 数据 ， 判 断 当 前 应 显示 的 手写 字符 。 

口 在 用 机 器 学 习 技 术 玩 雅 达 利 风格 的 电子 游戏 时 ， 根 据 当 前 游戏 状态 ， 判 断 游 戏 中 的 角色 

接 下 来 移动 的 方向 (上 、 下 、 左 、 右 ) 












































3.2.1 二 分 类 定义 


下 面 先 从 一 个 简单 的 二 分 类 问题 开始 。 假设 有 一 些 数据 ,我 们 想 从 中 得 出 是 或 否 的 结论 。 此 
处 以 钓鱼 网 站 数据 集 为 例 ”"， 则 在 根据 一 个 网 页 的 特征 数据 集 及 其 URL， 预 测 该 网 页 是 否 为 “ 钓 
鱼网 站 ”， 即 以 瓷 取 用 户 敏 感 信息 为 目标 ， 伪 壮 成 别 的 网 站 的 网 站 。 

该 数据 集 包含 30 个 特征 ， 所 有 的 特征 都 是 二 分 类 的 ( 以 -1 和 1 表示 ) 或 三 分 类 的 (以 -1、0 
和 1 表示 )。 这 里 没有 像 之 前 波士顿 房价 数据 集 那 样 列 出 每 个 特征 ， 而 只 是 列 出 了 一 些 具 有 代表 
性 的 特征 。 

口 HAVING_IP_ADDRESS: 检查 是 否 使 用 的 是 IP 地 址 而 不 是 域名 (二 分 类 值 : {-1，1} )。 

口 SHORTENING_SERVICE: 检查 是 否 使 用 缩 上 略 网 址 服务 (二 分 类 值 : {-1，1} )。 

口 SSLFINAL_STATE: 检查 当前 程序 状态 ， 共 有 三 种 可 能 。 第 一 ， 网 站 局 用 了 HITPS， 且 

其 证 书 颁发 者 可 信 ; 第 二 ， 网 站 启用 了 HTTPS， 但 其 证 书 颁 发 者 不 可 信 ; 第 三 ， 网 站 没 
有 启用 HTTPS (三 分 类 值 : {-1，0，1)} )。 

数据 集 包 含 约 5500 个 训练 样 例 以 及 同等 数量 的 测试 样 例 。 在 训练 样 例 中 ， 约 45% 的 样 例 是 
正 例 (positive， 即 真正 的 钓鱼 网 站 )。 测 试 集中 正 例 的 比例 与 训练 集中 的 相当 。 

这 可 能 是 最 易 用 的 数据 集 类 型 之 一 , 其 中 所 有 数据 的 特征 信息 在 一 个 一 致 的 区 间 内 ,因此 不 
必 像 之 前 对 波士顿 房价 数据 集 那样 ， 还 要 进行 标准 化 数据 平均 值 以 及 标准 差 。 另 外 ,相对 于 特征 
的 数量 以 及 可 能 的 预测 结果 数量 ( 此 处 就 两 个 ， 即 是 或 否 )， 训 练 样 例 的 数量 相当 可 观 。 综 上 所 
述 ， 这 恰恰 证 明了 该 数据 集 对 于 我 们 的 训练 目标 是 可 用 的 。 如 果 此 处 还 想 进一步 探索 数据 ， 可 以 
对 其 进行 成 对 的 特征 相关 性 检查 ， 分 析 是 否 存在 元 余 信 息 。 但 是 ,保留 一 部 分 元 余 信息 ， 对 目前 
的 模型 而 言 是 可 以 容 仍 的 。 

此 处 的 数据 和 之 前 标准 化 后 的 波士顿 房价 数据 非常 类 似 , 因此 可 以 为 起 始 模型 使 用 类 似 的 架 






























































GD 参见 Rami M. Mohammad 、Fadi Thabtah 和 Lee McCluskey 发 表 的 文章 “Phishing Websites Features”。 
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构 。 本 示例 的 代码 可 以 在 二 s-examples 代码 仓库 的 website-phishing 文件 夹 中 找到 。 可 以 像 下 面 这 
样 下 载 并 运行 上 述 示例 程序 : 
git clone https://github.com/tensorflow/tfjs-examples.git 


cd tfjs-examples/website-phishing 
yarn && yarn watch 


与 之 前 为 波士顿 房价 问题 构建 的 多 层 神经 网 络 相 比 , 这 两 个 模型 有 很 多 相似 的 地 方 。 这 里 的 
模型 也 有 两 个 隐藏 层 , 并 且 都 使 用 了 sigmoid 激活 函数 。 最 后 一 层 ( 输出 层 ) 有 且 只 有 1 个 单元 ， 
也 就 是 说 ， 对 于 每 个 输入 样 例 ， 模 型 都 会 输出 一 个 数字 作为 预测 。 但 两 者 有 一 个 关键 的 不 同 点 ， 
那 就 是 这 里 定义 的 二 分 类 模型 ， 其 最 后 一 层 使 用 的 是 sigmoid 激活 晒 数 ， 而 不 是 前 面 波士顿 房价 
问题 中 默认 的 线性 激活 冰 数 。 这 意味 看 模型 输出 数字 的 取信 范围 是 0 ~ 1， 而 波士顿 房价 模型 可 
以 输出 任何 浮 点 数 。 

前 面 已 经 验证 过 给 隐藏 层 添加 sigmoid 激活 函数 会 增加 模型 的 容量 。 但 是 为 什么 在 这 个 新 模 
型 的 输出 层 使 用 sigmoid 激活 孙 数 呢 ?” 这 是 因为 当前 问题 本 质 上 属于 二 分 类 问题 。 对 于 二 分 类 问 
题 ， 我 们 通 稼 会 让 模型 计算 输出 正 例 的 概率 ， 即 模型 “认为 ”给 定 的 样 例 输入 得 到 属于 “是 ”这 
类 回答 的 可 能 性 。 你 可 能 还 记得 高 中 数学 读 上 提 到 过 ,概率 永 远 是 处 于 0~1 范围 内 的 一 个 数 。 让 
檬 型 永远 输出 经 过 计算 的 概率 从 有 以 下 两 个 好 处 。 

口 它 反映 了 模型 对 它 输出 的 类 型 的 文 持 程度 。sigmoid 值 为 0.5 意味 看 模型 完全 不 确定 结果 
类 型 ， 两 种 分 类 模棱两可 。sigmoid 值 为 0.6 意味 着 模型 预测 的 是 正 例 ,但 可 能 性 非常 小 。 
sigmoid 值 为 0.99 意味 着 模型 非常 确定 示例 属于 正 例 ， 以 此 类 推 。 因 此 ,可 以 很 容易 地 将 
模型 的 输出 转换 成 最 后 的 答案 ， 例 如 ， 为 输出 设置 给 定 国 值 0.5。 不 难 想象 ， 如 采 模 型 输 
出 的 波动 范围 很 大 ， 则 会 非常 难 找到 一 个 这 样 的 国 值 。 

口 如 此 一 来 ， 获 得 可 微 的 损失 函数 变 得 更 为 容易 。 该 损失 函数 的 输入 为 模型 的 输出 和 真正 
的 二 元 目标 标签 ， 输 出 为 模型 离 目 标的 偏离 程度 。 之 后 在 讨论 模型 实际 使 用 的 二 元 交叉 
蚁 (binary crossentropy ) 时 会 详细 解释 。 

然而 ， 问 题 是 该 如 何 将 神经 网 络 的 输出 范围 约束 到 [0，1] 呢 ?神经 网 络 的 最 后 一 层 通 党 是 
密集 层 ， 该 层 会 对 输入 执行 矩阵 乘法 计算 (matMul ) 以 及 偏差 加 法 计算 (biasAgdq ), 但 无 论 是 
matMul 运算 还 是 biasAdd 运算 ， 都 没有 关于 输出 范围 为 [0，1] 的 内 在 约束 。 这 时 就 可 以 为 这 
两 个 运算 的 计算 结果 添加 sigmoid 等 非 线性 困 数 ， 这 样 输出 范围 就 成 了 [0，11]。 

代码 清单 3-5 中 还 添加 了 新 的 部 分 ， 那 就 是 优化 部 的 类 型 : 'adqam' 。 这 里 使 用 的 优化 器 和 
之 前 示例 中 的 'sga' 不 同 。 那么 具体 涉及 哪些 方面 呢 ?”2.2.2 市 中 提 到 ，sga 优化 融会 将 从 反 辐 传 
播 得 到 的 梯度 乘 以 固定 的 数字 ， 即 让 学 习 率 乘 以 -1， 以 此 来 计算 模型 的 权重 更 新 。 这 一 策略 有 很 
多 缺点 。 首 先 , 如 有 果 选 择 的 学 习 率 很 小 , 那么 癌 最 低 损失 的 收敛 就 会 很 缓慢 。 其次, 如 果 损 失 ( 超 ) 
平面 具有 某 些 特殊 属性 ,就 会 造成 权重 空间 中 更 新 路 径 的 “交错 ”。agam 优化 融 旨 在 通过 使 用 借 
增 因 子 ( multiplication factor ) 来 解决 sgd 的 这 些 短 板 ， 倍 增 因子 可 以 随 看 梯度 历史 《在 先前 训 
练 迭 代 中 的 情况 ) 智能 变化 。 除 此 之 外 , 它 还 会 对 不 同 的 模型 权重 参数 使 用 不 同 的 倍增 因子 。 
此 , 对 很 多 不 同类 型 的 深度 学 习 模型 而 言 , adam 通常 会 市 来 更 好 的 收敛 , 并 且 与 sgq 相 比 , adam 
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对 学 习 率 选择 的 依赖 更 小 , 这 就 是 它 流行 的 原因 。TensorFlowjs 库 还 提供 了 很 多 其 他 优化 带 类 型 ， 
其 中 一 些 也 很 流行 ( 比如 rmsprop )。 信息 栏 3-1 中 简要 介绍 了 这 些 优 化 俘 。 


代码 清单 3-5 ”为 钓鱼 网 站 检测 问题 定义 二 分 类 模型 (摘自 index.js 文件 ) 

const model = tf.segquential(); 
model.add (tf.layers.denselt 

inputShape: [data.numFeatures], 

units: 100, 

activation: 'sigmoid' 
})); 
model.add(tf.layers.dense({units: 100, activation: 'sigmoid'})); 
model.add(tf.layers.dense({units: 1, activation: 'sigmoid'})); 
model.compilel(t 

optimizer: 'adam', 

loss: 'binaryCrossentropy', 

metrics: ['accuracy'] 


}); 





言 息 栏 3-1 TensorFlow.js 支持 的 优化 器 
表 3-] 总 结 了 TensorFlow.js 中 最 常用 的 优化 器 类 型 的 API, 并 为 每 个 API 提 供 了 简要 且 直 
观 的 解释 。 
表 3-1 TensorFlow.js 中 的 常用 优化 器 以 及 API 





随机 梯度 下 降 算法 “sg99 0 最 简单 的 优化 侣 ,总 是 使 用 学 习 率 作为 梯度 的 倍增 
因子 


动量 (momentum) “'momentum' tf.train.momentum 通过 特定 方式 积累 过 去 的 梯度 ,权重 参数 过 去 的 梯 
度 方向 越 是 一 致 ， 其 更 新 就 越 快 ， 反 之 则 越 慢 
RMSProp ‘rmsprop' ”tf.train.rmsprop ”通过 记录 每 个 权重 梯度 的 均 方 根 误差 (root mean 
sqaure, RMS ) 的 最 近 历史 ， 来 以 不 同 程度 缩放 模 
型 权重 参数 的 倍增 因子 








AdaDelta ‘adadelta' tf.train.adadelta 以 类 似 RMSProp 的 方式 缩放 每 个 权重 参数 的 学 
习 率 
ADAM 'adam' EE ET ne 可 以 理解 为 AdaDelta 的 适应 性 学 习 率 策略 与 动量 
方法 的 结合 
AdaMax adgarmaXx， tf.train.adamax 类 似 于 ADAM， 但 是 用 略 有 不 同 的 算法 记录 梯度 
的 大 小 


这 时 就 出 现 了 一 个 问题 ， 那 就 是 对 于 给 定 的 机 器 学 习 问 题 和 模型 ， 该 选择 哪个 优化 器 呢 ? 
远 憾 的 是 , 深度 学 习 领 域 的 研究 者 对 此 目前 还 没有 达成 共识 , 这 也 是 为 什么 TensorFlow.js 会 提 
供 表 3-1 中 列 出 的 所 有 优化 器 ! 在 实践 中 ， 你 应 该 先 选择 较为 流行 的 优化 器 ， 比 如 'adam!' 和 
xmsprop'。 如 果 有 充裕 的 时 间 和 计算 资源 ， 也 可 以 将 优化 器 当 作 一 个 超 参 数 ， 通 过 调 优 来 
找到 能 带 来 最 佳 训 练 结果 的 优化 器 ( 参见 3.1.2 节 )。 
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3.2.2 度量 二 分 类 器 的 性 能 : 准确 率 、 精 确 率 、 召 回 率 


二 分 类 问题 共有 两 种 结果 ， 输 出 的 值 只 能 是 其 中 一 种 ， 比 如 0 或 1、 是 或 否 等 。 可 以 将 这 两 
种 结果 抽象 地 表示 为 正 例 (positive ) 与 负 例 (negative )。 神 经 网 络 决 策 的 结果 有 可 能 是 正确 的 ， 
也 有 可 能 是 错误 的 。 因 此 ， 输 入 样 例 的 实际 标签 与 网 络 的 输出 组 成 了 以 下 4 种 可 能 的 场景 ， 如 
表 3-2 所 示 。 











表 3-2 二 分 类 问题 中 的 4 种 分 类 结果 


预测 结果 


下 例 负 例 
正 例 真正 例 (TP ) 假 负 例 (FN ) 
负 例 假 正 例 (FP ) 真 负 例 (TN ) 


真正 例 (TP ) 和 真 负 例 (TN ) 是 模型 做 出 了 正确 预测 的 场景 。 假 正 例 (FP ) 和 假 负 例 (FN ) 
是 模型 做 出 了 错误 预测 的 场景 。 如 果 将 4 个 场景 对 应 的 单元 格 填充 为 对 应 情况 发 生 的 次 数 ， 就 可 
以 得 到 一 个 混淆 矩阵 〈confusion matrix )。 表 3-3 展示 了 关于 钓鱼 检测 问题 的 假想 混淆 矩阵 。 
表 3-3 ”二 分 类 问题 的 假想 混淆 和 矩阵 


预测 结果 











正 例 负 例 
正 例 4 2 
负 例 1 93 


从 钓鱼 检测 模型 假想 的 输出 结果 中 可 以 看 出 ,模型 正确 识别 出 了 4 个 钓鱼 网 站 , 漏 报 了 2 个 
钓鱼 网 站 ， 误 报 了 1 个 网 站 。 接 下 来 讨论 几 个 常见 的 度量 指标 ( metric )。 
准确 率 ( accuracy ) 是 最 简单 的 度量 方法 ， 它 量化 了 正确 分 类 的 示例 的 百分比 : 





Accuracy = (#TP + #TN) / #examples = (#TP + #TN) / (#TP + #TN + #FP + #FN) 
在 上 述 示 例 中 ， 准 确 率 计算 公式 为 
Accuracy = (4 + 93) / 100 = 97% 





准确 率 是 一 个 易于 描述 和 理解 的 概念 。 然 而 ， 有 时 它 又 具有 一 定 的 迷惑 性 。 一 般 而 言 ， 在 二 分 类 
任务 中 ,， 正 例 和 负 例 的 比例 是 不 相等 的 。 在 很 多 场景 中 ,， 正 例 的 数量 比 负 例 少 得 多 。 比 如 ， 多 数 
网 站 不 属于 钓鱼 网 站 、 多 数 零 部件 没有 缺陷 ,等 等 。 如 采 100 个 网 站 中 只 有 5 个 是 钓鱼 网 站 , 那 
么 即使 模型 永远 预测 “ 否 ”， 也 能 达到 95% 的 准确 率 ! 因此 ， 准 确 率 并 不 是 非常 好 的 系统 度量 指 
标 。 高 准确 座 听 起 来 总 是 不 错 ,， 但 同样 也 很 具有 迷惑 性 。 监 控 该 指标 固然 是 好 ,但 不 能 将 其 用 作 
损失 函数 。 
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下 面 这 一 对 度量 指标 尝试 捕捉 准确 率 未 能 反映 的 数据 细 市 ， 即 精确 率 ( precision ) 和 召回 率 
(recall )。 在 下 面 的 讨论 中 ， 正 例 指 那些 仍 须 执行 额外 行为 的 事情 ， 比 如 链接 是 否 高 冠 ， 或 帖子 
和 是否 标记 为 需要 人 工 审 核 。 负 例 指 无 须 执行 任何 行为 。 这 些 度量 指标 主要 侧重 于 从 不 同和 视角 评 舍 
模型 在 预测 中 可 能 出 现 的 不 同类 型 的 “ 错 ”。 

精确 率 度 量 的 是 模型 中 真正 例 占 预测 正 例 的 比例 : 


precision = #TP / (#TP + #FP) 


利用 混淆 矩阵 中 的 数据 ， 可 以 算出 精确 淮 如 下 : 


precision = 4/ (4+ 1) = 80% 


和 准确 率 一 样 ， 精确 率 也 具有 一 定 的 迷惑 性 。 为 了 让 模型 非常 保守 地 输出 正 例 预测 ， 可 以 只 
将 有 非常 高 sigmoid 输出 的 输入 样 例 标记 为 正 例 , 比如 sigmoid 输出 大 于 0.95, 而 不 是 默认 的 0.5。 
这 通 第 会 提高 模型 精确 率 ， 但 同时 很 可 能 会 导致 模型 汤 挥 很 多 真正 例 ， 而 这 些 正 例会 被 标记 为 
人 负 例 。 最 后 一 个 度量 指标 通常 和 精确 率 同 时 使 用 ,并 且 两 者 是 互补 的 ， 这 个 指标 就 是 召回 率 (或 
查 全 率 )。 

召回 率 是 模型 中 真正 例 占 所 有 正 例 的 比例 : 


recall = #TP / (#TP + #FN) 


利用 之 前 的 假想 混 清 矩阵 , 可 以 算出 以 下 结 


recall = 4/ (4 +2) 法 66.7% 


在 样本 集 的 所 有 正 例 中 ， 模 型 正确 识别 出 了 多 少 呢 ? 通 稼 而 言 ， 如 果 想 要 尽 可 能 避免 漏 抒 
真正 例 ， 程 序 会 有 意 接 妥 一 定 的 误 报 率 。 要 “迷惑 ”这 个 度量 指标 ， 只 需 将 所 有 的 样 例 都 输出 
为 正 例 。 由 于 关于 召回 率 的 计算 并 不 涉及 假 正 例 ， 因 此 可 以 通过 降低 精确 率 来 获得 100% 的 召 
回 率 。 

如 上 所 述 ,， 为 准确 率 、 精 确 率 或 各 回 率 量 身 打 造 一 个 系统 非常 简单 。 但 在 实际 的 二 分 类 问题 
中 ,通常 很 难 同时 获得 高 精确 率 和 高 召回 率 (如果 容易 实现 , 那么 你 手头 的 问题 一 定 很 简单 ， 并 
且 一 开始 就 不 必 使 用 机 需 学 习 模 型 )。 精 确 率 和 召回 率 往往 涉及 在 一 些 环 手 的 地 方 调 整 模 型 ， 这 
些 地 方 的 正确 答案 在 根本 上 就 是 不 确定 的 。 还 有 一 些 指标 更 为 微妙 ， 其 中 结合 了 不 同 的 指标 。 比 
如 召回 率 为 X % 时 的 精确 率 (precision at 凶 % recall )， 其 中 对 % 是 类 似 90% 的 比率 ， 这 一 指标 是 
在 调整 模型 时 ， 能 够 保证 其 召回 率 不 低 于 XX% 的 对 应 的 精确 率 。 例 如 在 图 3-5 中 ， 可 以 看 到 在 
400 个 训练 轮 次 后 ， 钓 鱼 检测 模型 达到 了 96.8% 的 精确 率 和 92.9% 的 召回 率 ， 并 且 此 时 使 用 的 输 
出 概率 国 值 为 0.5。 

前 面 大 致 提 到 ，sigmoid 了 滑 数 输出 正 例 的 羡 值 不 一 定 要 正好 为 0.$,， 记 住 这 一 点 很 重要 。 事 实 
上 ， 根 据 模 型 的 应 用 场景 ， 将 国 值 设 为 0.5 ~ 1 或 0~0.5 都 有 可 能 是 更 好 的 选择 。 如 果 降 低 输出 
正 例 的 国 值 ,模型 会 更 随意 地 将 输入 标记 为 正 例 ,这 样 会 提升 召回 率 , 但 同时 很 可 能 会 降低 精确 
率 。 与 此 相反 ， 如 有 果 增 加 国 值 ， 模 型 会 更 加 谨 层 地 标记 正 例 ， 这 样 会 提升 精确 率 ， 但 也 可 能 会 降 
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低 召 回 京 。 因此, 不 难看 出 精确 紊 和 召回 紊 之 间 存 在 取舍 关系 ,这 种 取舍 很 难 用 目前 介绍 的 任何 

一 个 度量 指标 量化 。 幸 运 的 是 , 前 人 在 二 分 类 领域 做 出 的 丰富 人 研究 提供 了 一 些 方法 ,可 以 帮助 我 

们 实现 更 好 的 量化 以 及 取舍 关系 的 可 视 化 ,3.2.3 市 中 的 ROC 曲线 就 是 解决 这 类 问题 的 常用 工具 。 
将 网 站 分 类 为 钓鱼 网 站 和 正常 网 站 

















数据 集 划 分 数据 集 划 分 
O 训 练 集 损失 O 训练 集 损 失 
O 〇 验证 集 损失 O 验证 集 损 失 
0.0 放下 < | 0 | 六 1 0.0 “中 “ "Ee -名 一 二 i | i | - 
0 50 100 150 200 250 300 350 400 0 50 100 150 200 250 300 350 400 
轮 次 轮 ? 


最 终 训 练 集 损失 ， 0.0493 准确 率 ， 0.9801 
最 终 验 证 集 损失 ， 0.1402 准确 率 ， 0.9521 
测试 集 损失 ， 0.1317 准确 率 ， 0.9$$5 
精确 率 : 0.9675 
召回 率 : 0.9289 
假 正 例 率 (FPR): 0.0240 
曲线 下 面积 (AUC): 0.981150715602107 


图 3-5 训练 钓鱼 网 站 检测 模型 一 轮 后 得 到 的 结果 示例 。 特 别 留意 图 下 方 列 出 的 各 种 指 
标 数 据 : 精确 率 ( precision )、 召 回 率 (recall )、FPR ( 假 正 例 率 ) 和 AUC ( 曲 
线 下 面积 ， 更 多 相关 信息 参见 3.2.3 节 ) 








3.2.3 ”ROC 曲线 : 展示 二 分 类 问题 中 的 取舍 关系 


ROC 曲线 被 广泛 应 用 于 各 种 工程 问题 。 这 类 问题 一 般 为 二 分 类 任务 或 针对 某 些 事件 类 型 的 
检测 任务 。ROC 曲线 的 全 称 为 受 试 者 操作 特征 曲线 (receiver operating characteristic curve )。 这 个 
名 称 来 自 早 期 的 雷达 学 ， 现 在 几乎 已 经 没 人 会 使 用 这 个 全 称 了 。 图 3-6 展示 了 当前 程序 的 ROC 
曲线 示例 。 
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图 3-6 在 训练 钓鱼 检测 模型 过 程 中 绘制 出 的 一 组 ROC 曲线 。 每 条 曲线 对 应 不 同 的 轮 
次 数 ， 随 痢 训 练 推 进 ， 曲 线 反 映 出 该 二 分 类 模型 性 能 上 的 进步 

从 图 3-6 中 轴线 的 名 字 可 以 看 出 , ROC 曲线 绘制 的 并 不 是 精确 率 和 召回 率 这 两 个 指标 的 下 接 
对 应 关系 ， 而 是 基于 两 个 稍 有 不 同 的 度量 指标 。ROC 曲线 的 x 轴 是 假 正 例 率 ( false positive rate, FPR )， 
其 定义 如 下 : 

FPR = #FP / (#FP + #TN) 

ROC 曲线 的 > 轴 是 真正 例 率 (true positive rate, TPR )， 其 定义 如 下 : 

TPR = #TP / (#TP + #FN) = recall 

TPR 和 召回 率 的 定义 完全 相同 , 它 只 不 过 是 同一 个 度量 指标 的 不 同 称呼 罢了 。 但 是 , FPR 是 
一 个 新 概念 ， 指 模型 中 假 正 例 占 所 有 负 例 的 比率 。 换 言 之 ，FPR 是 实际 为 负 例 , 但 被 错误 分 类 为 
正 例 的 部 分 占 所 有 负 例 的 比率 ， 即 一 般 常 说 的 误 报 (false alarm ) 的 概率 。 表 3-4 总 结 了 二 分 类 
问题 中 较为 第 见 的 度量 指标 。 

















表 3-4 ”二 分 类 问题 中 常见 的 度量 指标 


度量 指标 定 义 在 ROC 曲线 或 精确 率 -召回 率 曲线 中 的 使 用 方法 















































;准确 率 (#TP + #TN) / (#TP + #TN + #FP + #FN) (ROC 曲线 中 没有 出 现 ) 

精确 率 Wi 7 精确 率 -召回 率 曲 线 的 y 轴 

召回 率 /灵敏 度 /。 #TP / (#TP + #FN) ROC 曲线 的 y 轴 ( 见 图 3-6 )， 或 精确 率 - 召回 率 
TPR 曲线 的 x 轴 

误 报 率 /FPR WED 7 (PED TIN) ROC 曲线 的 x 轴 ( 见 图 3-6 ) 

AUC 利用 ROC 曲线 进行 数值 积分 计算 ,参见 代码 清 。”( ROC 曲线 中 没有 使 用 ,但 是 可 以 从 ROC 曲线 





单 3-7 中 的 示例 中 获取 ) 


3.2 输出 端的 非 线 性 : 分 类 任务 的 模型 85 


之 前 图 3-6 中 的 7 个 ROC 曲线 绘制 于 7 个 不 同 训练 轮 次 的 开始 阶段 。 第 一 个 轮 次 为 “ 轮 次 
001”， 最 后 一 个 轮 次 为 “ 轮 次 400”。 每 一 个 都 基于 模型 在 测试 集 ( 注意 ， 这 里 是 测试 集 而 不 是 
训练 集 ) 上 的 预测 值 进行 绘制 ,代码 清单 3-6 展 示 了 如 何 用 model .fit()API 中 的 onEpochBegin 
回调 函数 绘制 这 些 ROC 曲线 ， 这 样 在 调用 模型 的 训练 函数 时 ， 我 们 可 以 定义 要 执行 的 分 析 与 可 
视 化 任务 ， 无 须 再 单独 编写 for 循环 或 者 使 用 多 个 model .fit () 调 用 。 


代码 清单 3-6 ”使 用 回调 函数 在 模型 训练 周期 中 绘制 ROC 曲线 
await model.fit(trainData.data, trainData.target, ({ 
batchSize, 
epochs, 
validationSplit: 0.2, 
callbacks: { 





onEpochBegin: async (epoch) => { 
if ((epoch + 1)% 100 === 0 | 
eBoCh 三 EE 0 || SC sas .2 | Boeh, ss 4). 1 
才 一 一 一 一 每 隔 一 定 轮 次 就 绘制 ROC 曲线 
const probs = modqe].predqlct(testData.aQata) ，; 





drawROC (testData.target, probs, epoch); 
} 
}, 
onEpochEnd: async (epoch, logs) => { 
await ui.updateStatusl( 
Epoch SsS{epoch + 1} of Ss{epochs} completed. .); 
trainLogs .push (logs);} 
ui.plotLosses (trainLogs),; 
ui.plotAccuracies (trainLogs);} 
} 
} 
Ey 


drawROC () 图 数 定 义 了 ROC 曲线 的 绘制 细 市 ( 见 代 码 清单 3-7 )， 它 执行 了 以 下 操作 。 

口 通过 改变 神经 网 络 中 sigmoid 了 吨 数 的 输出 ( 概率 ) 的 国 但 ， 来 获得 不 同 的 分 类 结 

口 对 于 每 套 分 类 结果 ， 将 其 与 实际 标签 (目标 数据 集 ) 结合 ， 计 算出 TPR 和 FPR。 

口 绘制 TPR 和 FPR 的 对 应 关系 ， 获 得 ROC 曲线 。 

如 图 3-6 所 示 ， 在 训练 最 开始 时 〈 轮 次 001 )， 模 型 的 权重 会 被 随机 初始 化 ，ROC 曲线 非常 
接近 一 条 对 角 线 ， 连 接着 点 (0, 0) 和 点 (1, 1)。 此 时 相当 于 随机 预测 。 随 着 训练 的 推进 ，ROC 曲线 
会 逐渐 推 至 左上 角 ， 即 FPR 接近 于 0，TPR 接近 于 1 的 位 置 。 如 果 我 们 专注 于 某 个 特定 的 FPR ， 
比如 0.1， 会 发 现 其 对 应 的 TPR 值 随 大 训练 的 推进 在 单调 增加 。 换 句 话 说 ， 随 着 训练 推进 ， 如 有 果 
误 报 率 ( FPR ) 保持 不 变 ， 模型 可 以 实现 越 来 越 高 的 召回 率 (TPR )。 

对 于 “理想 ”的 ROC 曲线 ， 其 形状 会 绷 左 上 角 伦 曲 到 极限 ， 与 硕 腊 字 母 工 的 形状 类 似 。 这 种 
场景 对 应 的 是 100% 的 TPR 和 0% 的 FPR， 可 以 说 是 所 有 二 分 类 需 的 “终极 目标 ”, 但 这 只 是 理想 
状态 ， 并 不 能 真正 实现 。 在 现实 问题 中 , 我 们 只 能 通过 改进 模型 ， 尽 量 让 ROC 曲线 徘 近 左上 角 。 

基于 对 ROC 曲线 形状 及 其 含义 的 讨论 , 可 以 看 到 , 在 单位 正方 形 中 , 通过 计算 ROC 曲线 以 
下 部 分 的 面积 ， 即 介 于 ROC 曲线 和 x 轴 之 间 部 分 的 面积 ， 可 以 量化 ROC 曲线 的 性 能 。 这 部 分 面 
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只 就 是 曲线 下 面积 (areaunderthe curve, AUC )， 也 可 以 通过 代码 清单 3-7 中 的 代码 进行 计算 。 该 
度量 指标 涉及 假 正 例 和 假 负 例 之 间 的 关系 ， 从 这 个 角度 来 看 , 它 要 优 于 精确 率 、 召 回 率 以 及 准确 
率 。 随机 预测 的 ROC 曲线 ( 轮 次 001 ) 的 AUC 为 0.5, 而 工 形状 的 理想 ROC 曲线 的 AUC 为 1.0。 
在 训练 完成 后 ， 本 示例 的 钓鱼 检测 模型 的 AUC 可 达到 0.981。 


代码 清单 3-7 绘制 ROC 曲线 并 计算 对 应 的 AUC 


function drawROC (targets, probs, epoch) { 




















return tf.tidy(() => { 
const thresholds = | 
0:0; 0:05, QL 015; O32; O025, 0.3; “035, 0i4; ‘0:45, 一 组 手动 选择 的 
0.5, 0.55, 0.6, 0.65, 0.7, 0.75, 0.8, 0.85, 区 
0.9, 0.92, 0.94, 0.96, 0.98, 1.0 概率 国 什 
外 
const tprs = [|] // TPR 
const fprs = [|] // FPR 
let area = 0; falsePositiveRate() 
for (let i1 = 0; 1 < thresholds.length; ++1) { 通过 比较 预测 值 和 实际 目 
Tonst. Tmeshold = thresholaslLls 标 计算 假 正 例 率 。 该 函数 
const threshPredictions = 的 定义 和 azrawRoc() 函数 
通过 阅 值 化 utils.binarize (probs, threshold) .as1D(); 位 于 同一 个 文件 中 
处 理 ， 将 概 const fpr = falsePositiveRatel 
率 转换 为 巴 
测 值 threshPredictions) .arraySymnc ( ) ; 
const tpr = tf.metrics.recall (targets, threshPredictions) .arraySync ( ) ; 
fprs.push (fpr); 
tprs.push (tpr);} 
If (i > 0) { 
area += (tprs[i] + tprs[i - 1]) * (fprs[i - 1] - fprs{[i]) / 2; 


} 
” 


耳 六 、| 和 和 只 
uli.DlotROoC (fprs，tprs，epoch) ; 通过 计算 累积 的 


面积 得 到 AUC 


return area; 
jy) 
) 
除了 可 视 化 二 分 类 各 的 一 些 性 能 特征 ， 在 实际 应 用 场景 中 ，ROC 曲线 还 有 助 于 合理 选择 概 
率 的 国 值 。 假设 我 们 现在 是 一 个 开发 钓鱼 检测 服务 软件 的 公司 , 那 我 们 应 该 采用 下 面 哪 种 方式 选 
择 国 值 呢 ? 
口 使 阀 值 相对 较 低 。 如 果 漏 掉 真 正 的 钓鱼 网 站 ， 那 么 我 们 可 能 因 赔 偿 客 户 或 丢 了 合同 而 遭 


学 大 量 损 失 。 
口 使 国 值 相对 较 高 。 如 末 模 型 过 多 地 将 网 站 分 类 为 钓鱼 网 站 ,就 可 能 因为 封杀 正常 网 站 而 
被 用 户 投诉 。 








每 个 阅 值 对 应 ROC 曲线 上 的 一 个 点 。 将 靖 值 逐渐 从 0 增加 到 1 的 过 程 ,实际 相当 于 沿 着 ROC 
曲线 从 右上 角 (FPR 和 TPR 都 是 1 ) 移动 到 左下 角 (FPR 和 TPR 都 是 0 )。 就 像 上 面 列 出 的 这 两 
点 一 样 ， 在 实际 工程 问题 中 ， 对 于 取 ROC 曲线 上 的 哪 一 点 作为 阅 值 ， 这 需要 权衡 现实 生活 中 的 
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利 浆 再 决定 。 根 据 客户 以 及 业务 发 展 阶段 的 不 同 ， 做 出 的 选择 也 会 有 所 不 同 。 

除了 ROC 曲 线 , 还 有 一 种 可 视 化 二 分 类 问题 的 稼 用 方法 是 精确 率 - 召 回 率 曲 线 ( 即 P/R 曲线 )， 
该 曲线 之 前 在 表 3-4 中 简要 地 提 过 。 与 ROC 曲线 不 同 ，P/R 曲线 绘制 了 精确 率 和 召回 率 的 对 应 关 
系 。P/R 曲线 在 概念 上 和 ROC 曲线 类 似 ， 在 此 不 再 歼 述 。 

注意 , 代码 清单 3-7 中 使 用 了 tf .tigy () 图 数 , 上 在 确保 正确 处 理 作 为 参数 传人 其 中 的 匿名 
陋 数 中 创建 的 张 量 ， 从 而 避免 这 些 张 量 继续 占用 WebGL 内 存 。 在 浏览 需 中 ，TensorFlow.js 无 法 
自动 管理 由 用 户 创建 的 张 量 占 用 的 内 存 ， 这 主要 是 因为 JavaScript 缺乏 对 象 释放 〈object finalization ) 
方法 ， 并 有 日 TensorFlow.js 张 量 底层 使 用 的 WebGL 材质 缺乏 垃圾 回收 ( garbage collection ) 机 制 。 
如 果 这 些 临 时 的 张 量 没 有 被 正确 地 清理 掉 ，WebGL 会 发 生 内 存 泄 漏 。 如 果 内 存 泄 漏 持 续 时 间 够 
长 ， 最 终 会 导致 WebGL 产生 内 存 不 足 错误 。 附 录 B 提供 了 TensorFlow.js 内 存 管理 的 详细 教程 ， 
其 中 还 包含 该 话题 的 相关 练习 。 如 果 你 想 通 过 组 合 这 些 TensorFlow.js 因数 来 实现 目 定 义 函 数 , 那 
么 应 该 细 读 这 部 分 内 容 。 





























3.2.4 ”二 元 交叉 炉 : 二 分 类 问题 的 损失 函数 

前 面 讨论 了 不 同 的 度量 指标 ,它们 能 从 不 同 角度 量化 二 分 类 器 的 性 能 ， 比 如 准确 率 、 精 确 率 
和 召回 率 ( 见 表 3-4 )。 但 是 我 们 还 未 讨论 过 一 个 重要 的 度量 指标 ， 该 指标 是 可 微 的 ， 而 且 能 够 生 
成 支持 模型 梯度 下 降 算 法 训练 的 梯度 ， 那 就 是 代码 清单 3-5 中 出 现 的 ， 尚 未 展开 介绍 的 


binaryCrossentropy 损失 也 数 . 





model.compilel(t 
optimizer: 'adam', 
loss: 'binaryCrossentropy', 
metrics: ['accuracy'] 


Fe 


你 可 能 会 有 这 样 的 疑问 : 为 什么 不 能 直接 使 用 准确 率 、 精 确 率 、 召 回 率 ， 其 至 是 AUC 作为 
损失 函数 呢 ? 虽然 这 些 度量 指标 都 非常 容易 理解 一 一 包括 均 方 误差 , 之 前 的 回归 问题 束 是 直接 使 
用 均 方 误差 作为 训练 的 损失 水 数 的 一 一 但 是 还 和 需要 注意 ,上述 所 有 二 分 类 度量 指标 都 无 法 提供 训 
练 所 需 的 梯度 。 以 准确 率 为 例 , 要 想 理解 为 什么 它 不 是 梯度 友好 型 指标 ， 就 必须 认识 到 ， 在 计算 
准确 率 前 需要 先 判 断 模 型 的 预测 值 是 正 例 还 是 负 例 ( 见 表 3-4 的 第 一 行 )， 这 时 需要 使 用 阅 值 函 
数 ( thresholding function )， 更 技术 性 的 称呼 是 阶 跃 函 数 〈 step function )， 将 模型 的 sigmoid 输出 
转换 为 二 元 的 预测 值 。 因 此 本 问题 的 根本 症结 在 于 ， 尽 管 阶 跃 印 数 在 绝 大 多 数 点 上 是 可 微 的 [在 
“ 跃 点 ”(x=0.5 ) 处 是 不 可 微 的 ], 但 是 其 导数 永远 是 0( 见 图 3-7)1 反 回 传播 经 过 这 个 国 值 函 数 
时 会 发 生 什么 呢 ? 榴 度 最 终 将 全 部 变 为 0， 这 是 因为 在 某 一 点 上 ， 上 游 的 梯度 值 最 终 会 和 这 些 阶 
跃 羡 数 造 成 的 全 零 导 数 相 乘 。 更 通俗 地 说 ， 如 采 将 准确 率 〈 或 精确 率 、 有 召回 率 以 及 AUC 等 之 前 
提 及 的 度量 指标 ) 作为 损失 函数 , 那么 内 部 阶 跃 本 数 扁平 的 部 分 会 影响 训练 算法 ,使 其 无 法 在 权 
重 空间 中 获知 能 够 减少 损失 的 移动 方 癌 。 
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可 微 但 是 梯度 为 0 
step(p) 
PE 
0 0.5 1 
p 


图 3-7 ”用 于 转换 二 分 类 模型 概率 输出 的 阶 跃 函 数 在 大 多 数位 置 是 可 微 的 。 
但 是 ， 在 每 一 个 可 微 点 的 梯度 (导数 ) 都 为 0 


因此 , 将 准确 率 用 作 损 失 函 数 会 使 模型 无 法 有 效 地 计算 梯度 ,因此 也 无 法 对 模型 权重 进行 有 
义 的 更 新 。 其 他 度量 指标 也 具有 同样 的 局 限 性 ， 包 括 精 确 率 、 召 回 率 、FPR 和 AUC。 尺 管 这 
些 度量 指标 有 助 于 理解 二 分 类 需 的 性 能 特征 ， 但 是 它们 对 模型 的 训练 毫 无 用 处 。 
这 里 为 二 分 类 任务 使 用 的 损失 浮 数 是 二 元 交 义 炉 ( binary cross entropy ), 它 对 应 代码 清单 3-5 
中 配置 的 'binaryCrossentropy'。 下面 的 伪 代 码 定义 了 二 元 交叉 人 损 失 孙 数 的 算法 。 


代码 清单 3-8 ”二 元 交叉 炉 损 失 孔 数 使 用 的 伪 代 码 * 
function binaryCrossentropy (truthLabel, prob): 
If truthLabel 1S 1: 
return -log (prob) 
else: 


LE 
局 
LU 








return -log(1 - prob) 


在 上 面 的 伪 代 码 中 ， 真 值 标签 ( truthLabel ) 值 为 0 或 1， 表 示 输 入 样 例 的 真正 的 标签 是 
负 例 (0 ) 或 正 例 (1 )。 概 率 值 ( prob ) 表示 模型 预测 输入 的 样 例 属 于 正 例 的 概率 。 注 意 ， 与 
truthLabel 不 同 , prob 预期 输入 的 是 0~1 范围 内 的 任意 实数 。log 则 是 高 中 数学 中 提 到 的 撒 数 
为 e( 约 为 2.718 ) 的 自然 对 数 (natural logarithm )。binaryCrossentropy 的 定义 中 包含 一 人 1 
if-else 分 文 ， 负 责 根 据 truthLabel 的 值 执行 不 同 的 计算 。 图 3-8 将 两 种 情况 绘制 在 了 同一 
张 图 表 中 。 

在 观察 图 3-8 中 的 图 形 时 要 注意 , 因为 这 是 一 个 损失 函数 , 所 以 数值 越 小 表示 预测 效果 越 好 。 
另外 ， 该 损失 函数 还 有 以 下 几 点 需要 和 留意。 

口 如 果 truthLabel 是 1， 那么 prob 值 越 接近 1.0， 损 失 函 数 的 值 就 越 低 。 这 是 合理 的 ， 

因为 当 样 例 为 真正 例 时 ,模型 应 该 输出 尽 可 能 接近 1.0 的 概率 。 反 之 亦 然 ， 如 采 

















GD binaryCrossentropy 的 实际 代码 还 需要 考虑 避免 prob 或 1 - 正好 为 0 的 情况 。 在 这 些 情况 下 ，log 郴 
数 的 值 会 变 为 无 限 大 。 为 了 避免 这 种 情况 ， 在 将 参数 传人 log 函数 前 ， 通常 要 给 prob 和 1 - prob 的 值 加 上 一 
个 非常 小 的 正 数 ， 比 如 le-6， 该 数 通 销 叫 作 “epsilon” 或 “ 容 差 系数 ”。 
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truthLabel 为 0,， 那么 prob 值 越 接近 0， 损失 陶 数 的 值 束 越 低 。 这 也 是 合理 的 ， 在 这 
种 情况 下 ， 模 型 应 该 输出 尽 可 能 接近 0 的 概率 。 

口 与 图 3-7 中 展示 的 阶 路 函数 不 同 , 这些 曲 线 在 每 个 点 郡 有 非 0 的 冬 率 ,也 就 是 非 0 的 梯度 。 
这 是 它 适用 于 基于 反问 传播 的 模型 训练 的 原因 。 


一 一 truthLabel = 1 
一 一 一 truthLabel = 0 





二 元 交 又 焕 





县 率 值 
图 3-8 ”二 元 交 又 炉 损 失 也 数 ,两 条 曲线 分 别 对 应 代码 清单 3-8 中 if-else 分 文中 的 两 
种 情况 ( 即 truthLabel 为 1 和 truthLabel 为 0 的 两 种 情况 ) 


你 可 能 会 问 :“ 为 什么 不 像 之 前 的 回归 模型 一 样 ,将 0 或 1 作为 回归 目标 ， 并 将 均 方 误差 作 
为 损失 图 数 呢 ? ”毕竟 均 方 误差 是 可 微 的 ， 并 且 跟 binaryCrossentropy 一 样 ， 计 算 
truthLabel 与 概率 的 均 方 误差 可 以 得 到 非 堆 导数。 这 个 问题 的 关键 在 于 , 均 方 误差 在 边界 上 会 
出 现 “ 边 际 效 应 递减 ”( diminishing return ) 的 情况 。 例 如 ， 表 3-5 中 列 出 了 当 truthLapel 值 为 
1 时 , 一 系列 prob 的 binaryCrossentropy 损失 值 和 均 方 误差 损失 值 。 随 痢 prob 逐渐 接近 1 
(目标 值 )， 均 方 误差 相 比 binarycrossentropy 会 降低 得 越 来 越 慢 。 因 此 ， 当 prop 无 限 接近 
1 时 ( 比如 0.9 ), 均 方 误差 并 不 擅长 “或 励 模 型 产生 更 高 的 接近 1 的 概率 值 , 同 理 , 当 truthLabel 
值 为 0 时 ， 相 对 而 言 ， 均 方 误 差 也 不 擅长 生成 将 模型 的 prob 输出 推 问 0 的 梯度 。 


表 3-5 ”比较 假想 的 二 分 类 问题 预测 结果 对 应 的 二 元 交 义 炉 损 失 值 和 均 方 误差 损失 值 


























真 值 标签 (truthLabel) 概 率 二 元 交叉 业 损 失 值 均 方 误差 损失 值 
] 0.1 2.302 0.81 
] 0.5 0.693 0.25 
] 0.9 0.100 0.01 
] 0.99 0.010 0.0001 
] 0.999 0.001 0.000001 
] 


] 0 0 
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这 展示 了 二 分 类 问题 和 回归 问题 另 一 个 不 同 的 方面 ， 对 二 分 类 问题 而 言 ， 损 失 
(binaryCrossentropy ) 和 度量 指标 ( 比如 准确 率 、 精 确 率 等 ) 是 不 同 的 ,而 对 回归 问题 而 言 ， 
它们 通常 是 一 样 的 ( 比如 meanSgquaredError ba 3.3 方 会 介绍 多 分 类 问题 ， 其 中 也 涉及 多 种 损 
失 函 数 和 度量 指标 。 








3.3 ”多 分 类 问题 


在 3.2 节 中 ， 我 们 探索 了 如 何 分 析 二 分 类 问题 ， 接 下 来 将 快速 了 解 如 何 处 理 非 二 分 类 问题 
( nonbinary classification )， 又 称 多 分 类 问题 (multiclass classification )， 也 就 是 涉及 3 个 或 3 个 以 
上 类 型 的 分 类 任务 "。 这 里 用 于 诠释 多 分 类 问题 的 是 源 自 统计 领域 的 著名 数据 集 一 一 莹 尾 花 数据 
集 ( iris-flower dataset )， 该 数据 集 主要 介绍 总 尾 属 下 的 3 种 亚 属 ,分 别 是 山药 尾 (iris setosa )、 
变色 交尾 (iris versicolor ) 和 弗吉尼亚 蕊 尾 (iris virginica )。 这 3 种 亚 属 可 以 通过 形状 和 大 小 来 区 
分 。 在 20 世纪 初 ， 英 国 统计 学 家 Ronald Fisher 收集 了 150 和 东 竟 尾 花 的 样本 ， 并 测量 了 它们 的 花 
办 和 本 请 的 长 度 与 宽度 。 这 3 种 亚 属 的 样本 数量 相同 ， 每 个 目标 标签 都 正好 有 50 个 样本 。 

在 这 个 示例 中 ， 模 型 的 目标 是 预测 样 例 所 属 的 目标 标签 (3 种 亚 属 中 的 任意 一 种 )， 其 中 包 
含 4 个 数值 特征 ， 它 们 分 别 是 花 为 长 度 、 花 办 宽度 、 要 族长 度 和 要 片 宽度 。 本 示例 的 代码 位 于 
区 S-examples 代码 仓库 的 iris 文件 夹 中 ， 可 以 通过 以 下 命令 浏览 并 运行 它们 。 


git clone https://github.com/tensorflow/tfjs-examples .git 
cd tfjs-examples/iris 
































yarn && yarn watch 


3.3.1 ”对 分 类 数据 进行 one-hot 编码 


在 开始 学 习 音 尾 花 分 类 问题 的 模型 之 前 ， 需 要 特别 强调 分 类 目标 〈 亚 属 ) 在 多 分 类 任务 中 的 
表示 方式 。 目 前 本 书 介绍 的 所 有 机 种 学 习 问 题 用 的 都 是 较 简 单 的 目标 表示 方法 ， 比 如 下 载 所 需 时 
间 预 测 问题 和 波士顿 房价 预测 问题 中 的 单个 数 子 ， 或 者 钓鱼 网 站 检测 问题 中 对 二 元 目标 的 0 或 1 
表示 方法 。 但 是 在 苇 尾 花 分 类 问题 中 ,3 种 亚 属 的 表示 方法 略 有 不 同 , 该 方法 叫 作 one-hot 编码 。 
打开 datajjs 文件 ， 可 以 看 到 下 面 这 一 行 代码 : 


const ys = tf.oneHot (tf.tensorild(shuffledTargets) .toInt(),IRIS NUM CLASSES); 


这 里 shuffledTargets 是 通过 乱 序 排列 本 示例 的 整数 标签 ,从 而 得 到 的 简单 JavaScript 数组 。 
该 数组 中 每 个 元 系 均 为 0、1 和 2 中 的 任意 数字 ， 代 表 效 据 集 中 的 3 种 高 尾 花 亚 属 。 随 后 通过 调用 


























Qa 特别 注意 ,不 要 混淆 多 分 类 ( multiclass ) 与 多 标签 ( multilabel ) 这 两 种 分 类 任务 。 在 多 标签 分 类 中 ， 一 个 输入 样 
例 可 以 对 应 多 个 输出 类 型 。 检 测 输 入 图 像 是 否 包含 各 种 类 型 的 物体 就 是 一 个 例子 ， 图像 中 可 能 只 有 一 个 人 ， 也 可 
能 同时 有 一 个 人 、 一 辆 车 或 一 只 动物 ， 等 等 。 要 想 让 生成 的 输出 能 够 表示 输入 样 例 所 符合 的 所 有 类 型 ， 那 么 不 管 
这 些 类 型 数量 有 多 少 ， 者 需要 借助 多 标签 分 类 需 。 本 人 和 多 标签 分 类 问题 无 关 ， 相 反 会 专注 于 更 简单 的 单 标签 、 
多 分 类 问题 ， 也 就 是 说 ， 每 个 输入 样 例 部 正好 对 应 多 个 可 能 输出 类 型 中 的 某 种 类 型 。 
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cf.tensorldq(shuffledqTargets) .toInt () 将 该 数组 转换 为 类 型 为 int32 的 一 维 张 量 ， 这 个 一 
维 张 量 会 传递 到 tf .oneHot () 困 数 ， 随 后 返回 形状 为 numExamples,IRIS_NUM_CLASSES] 的 二 
维 张 量 。numExamples 是 目标 集 ( targets ) 包含 的 样本 数量 ， 而 IRIS_NUM_CLASSES 仅仅 
是 常量 3。 可 以 通过 在 上 述 代码 后 插入 下 面 几 行 代码 , 来 打印 targets 和 ys 的 实际 值 。 

const ys = tf.oneHot (tf.tensorld(shuffledTargets) .toInt ()，IRIS_NUM_ CLASSES ) ; 

// 添加 下 面 两 行 代 码 ， 来 打印 targets 和 ys 的 值 

console.log('Value of tardgets:'，tardets) ， 

ys.print(); 只 

在 添加 完 代码 后 ，yarn watch 命令 启动 的 parcel 打包 进程 会 自动 重新 构建 Web 文件 。 接 着 
你 就 可 以 在 示例 程序 对 应 的 浏览 妖 选 项 卡 中 打开 开发 者 工具 ( devtool )， 册 次 刷新 页 面 。 
console.109g() 和 print() 调 用 打印 出 的 信息 都 会 在 开发 者 工具 的 控制 台中 显示 ， 可 以 看 到 与 
下 面 类 似 的 张 量 数据 ( 包括 但 不 限于 ): 


Value of targets: (50) [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 
0 -0 Vy QO Oa OQy OF OV, OF Vy VO 0 0 Or OF Vy 0% Vy Or 0 0% 0 Vr 0 














Tensor 
[Ls 0 909; 
[Es 0 0); 
[1;- 0 0]; 
Ly 0 0 
Lis 0 0 
[1, 0, 01]] 
或 者 类 似 下 面 这 样 : 
Value Of targets: (50) EL, 4; 4, 4, 二， 二， 1 二， 二， 二， 和 ,二 
A 4 


Tensor 
[TO :Ez Ql); 
[0, 1, 0], 
[0, 1, 0], 
[0, 1, 0], 
[0, 1, 0], 
[Ye 7 如 








可 以 用 文学 描述 这 些 数据 ， 比 如 对 标签 为 整数 0 的 样 例 而 言 ， 其 对 应 的 数据 表示 为 [1, 0, 0]。 
对 标签 为 整数 1 的 样 例 而 言 ， 其 对 应 的 数据 表示 为 [0，1，0] ， 以 此 类 推 。 这 是 一 个 简单 是 有 代 





中 与 targets 不 同 , ys 不 是 简单 的 JavaScript 数 组 ， 而 是 在 GPU 中 存储 的 张 量 对 象 。 因 此 ,常用 的 console.1og 
指令 无 法 显示 张 量 内 的 数据 ，print () 方 法 正 是 专门 为 从 GPU 中 取 值 而 设计 的 ， 它 会 将 张 量 中 的 数据 以 正确 的 
形状 以 及 人 类 可 读 的 方式 ， 在 控制 台中 显示 出 来 。 
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表 性 的 one-hot 编码 示例 : 它 将 整数 标签 转换 为 一 个 同 量 ， 其 中 除了 与 标签 对 应 的 索引 的 值 为 1， 
其 他 所 有 的 元 素 都 为 0， 回 量 的 长 度 等 于 所 有 可 能 的 类 型 的 数量 。 整 个 回 量 中 只 有 一 个 元 系 的 值 
为 1， 这 正 是 这 种 编码 方式 叫 作 one-hot (“ 仅 一 位 有 效 ”) 的 原因 。 

看 来 这 种 编码 方式 可 能 将 问题 不 必要 地 复杂 化 了 。 如果 只 用 一 个 数字 就 可 以 表示 类 型 , 那么 
为 什么 还 要 用 3 个 数字 来 表示 呢 ? 也 就 是 说 ， 为 什么 要 选择 one-hot 编码 方式 ， 而 不 是 更 为 简单 
经 济 的 将 单个 整数 作为 索引 的 编码 方式 呢 ? 这 个 问题 可 以 从 两 个 角度 来 理解 。 

首先 ， 对 神经 网 络 而 言 ， 输 出 一 个 连续 的 、 浮 点 类 型 的 值 要 比 输出 整数 容易 得 多 ， 对 浮 点 数 
输出 进行 取 整 操作 也 不 是 一 种 优雅 的 解决 方法 。 有 一 种 更 为 优雅 且 目 然 的 策略 , 那 就 是 让 神经 网 
络 的 最 后 一 层 输 出 几 个 独立 的 浮 点 数 , 并 通过 仔细 选择 的 激活 函数 ( 类似 于 之 前 为 二 分 类 问题 使 
用 的 sigmoid 子 数 )， 将 这 些 浮 点 数 约束 在 [0，1] 区 间 内 。 在 这 种 策略 中 ， -个 数字 都 代表 模 
型 对 于 输入 样 例 所 属 类 型 的 预测 。 这 正 是 one-hot 编码 的 意义 ， 它 代表 概率 估计 的 “正确 答案 ”， 
即 模型 训练 的 拟 合 目 标 。 

其 次 ， 如 果 将 类 型 编码 为 整数 ， 就 会 在 类 型 之 间 建 立 一 种 隐 含 的 排序 关系 。 例 如 ， 可 以 将 山 
苞 尾 标记 为 0， 将 变色 交尾 标记 为 1， 将 弗吉尼亚 读 尾 标记 为 2。 然 而 ， 这 样 的 编码 顺序 通常 是 
人 为 设计 的 ,上 且 缺乏 合理 的 理由 。 上 比如， 上述 编 码 顺 序 其 实 蜡 指 山寺 尾 更 接近 变色 车 尾 ， 而 不 是 
弗吉尼亚 音 尾 , 但 现实 中 并 不 一 定 如 此 。 神 经 网 络 的 运行 依赖 于 对 实数 进行 乘法 与 加 法 这 样 的 数 
学 运算 。 因 此 ， 它 们 会 受到 数字 大 小 以 及 排序 的 影响。 如 果 将 类 型 编码 为 单个 数字 ， 这 会 给 神经 
网 络 增加 一 个 需要 额外 学 习 的 非 线 性 关系 。 相 比 之 下 ， 经 过 one-hot 编码 的 类 型 不 包含 任何 隐 含 
的 排序 关系 ， 因 此 也 不 会 给 神经 网 络 增加 学 习 人 负担 。 

我 们 在 第 9 曹 会 介绍 ，one-hot 编码 不 仪 适用 于 神经 网 络 的 输出 目标 ， 而 且 还 适用 于 涉及 分 
类 数据 ( categorical data ) 的 神经 网 络 输入 。 





















































3.3.2 ” 归 一 化 指数 函数 : softmax 函数 
在 了 解 输 入 特征 和 输出 目标 的 表示 方法 后 , 现在 来 看 一 下 定义 模型 的 代码 ( 摘 目 iris/index.js )。 
代码 清单 3-9 音 尾 花 分 类 问题 使 用 的 多 层 神 经 网 络 





const model = tf.sequential(); 
model.add (tf.layers.densel 

{units: 10, activation: 'sigmoid', inputShape: [xTrain.shape[l1]]})); 
model.add (tf.layers.dense({units: 3, activation: 'softmax'})); 


model .summary (); 


const optimizer = tf.train.adam(params.learningRate).; 
model.compilel(t 

optimizer: optimizer, 

loss: 'categoricalCrossentropy', 

metrics: ['accuracy'], 


了， 
代码 清单 3-9 定义 的 模型 的 拓扑 结构 报告 如 下 : 

















Layer (type) Output shape Param # 
dense Densel (Dense) [null,10] 50 
dense Dense2?2 (Demnse ) [null,3] 3.3 





Total params: 83 





Trainable params: 83 
Non-trainable params: 


从 上 面 打 印 出 的 报告 可 见 ， 这 是 一 个 非常 简单 的 模型 ， 它 的 权重 参数 也 相对 较 少 (83 个 )。 
第 2 个 密集 层 的 输出 形状 [nul1，31 对 应 分 类 目标 的 one-hot 编码 。 最 后 一 层 使 用 的 激活 另 数 是 
归 一 化 指数 函数 ， 即 softmax 哺 数 ， 它 是 专门 为 多 分 类 问题 而 设计 的 。softmax 也 数 的 数学 定义 可 
以 用 以 下 伪 代 码 表 示 : 


softmax([xl, x2, ..., Xn|]) = 
[exp (x1) / (exp(X1L) + exp (Xx2) + + exp (xn),) 
exp(x2) / (exp (X1L) + exp (x2) + + exp (xn),) 
exp(xn) / (exp (X1L) + exp(x2) + ... + Exp (xn))] 








与 之 前 的 sigmoid 哺 数 不 同 ， 在 输入 癌 量 中 ， 每 个 元 素 的 变换 是 相互 依赖 的 ， 因 此 softmax 
为 数 并 不 是 对 单个 元 素 逐 个 进行 计算 。 具 体 而 言 , 输入 癌 量 中 的 每 个 元 素 都 会 先 通 过 底数 为 el 约 
为 2.718 ) 的 exp 图 数 ， 转 换 为 对 应 的 目 然 指 数 (natural exponential )， 随 后 单个 元 又 的 指数 会 除 
以 所 有 元 素 指 数 的 总 和 。 首 先 ， 这 样 能 确保 每 个 数字 取信 范围 为 0~ 1。 其次， 这样 能 保证 所 有 
输出 癌 量 元 系 的 和 为 1。 这 是 一 个 非常 好 的 属性 ,一 方面 可 以 将 输出 理解 为 给 每 个 类 型 分 配 的 概 
率 伸 , 为 一 方面 只 有 输出 满足 这 个 属性 ,才能 够 与 分 类 交叉 燃 损 失 也 数 实现 兼容 。 最 后 ， 这 样 确 
保 了 输入 向 量 中 较 大 元 素 与 输出 向 量 中 较 大 元 素 之 间 的 对 应 关系 。 来 看 一 个 具体 示例 , 假设 最 后 
一 个 密集 层 中 的 矩阵 乘法 加 上 偏差 后 的 结果 为 下 面 的 问 量 : 





























因为 密集 层 设 置 了 3 个 单元 ， 所 以 它 的 长 度 为 3。 注意 ， 此 处 的 元 素 都 是 任意 浮 点 数 ， 没 有 
特定 范围 。softmax 函数 会 将 这 个 回 量 转换 为 

[0.0474107, 0.9522698,，, 0.0003195] 

可 以 运行 下 面 的 TensorFlowjs 代码， 从 而 验证 这 一 点 ( 比如 打开 js.tensorflow 网 站 ， 然 后 在 
开发 者 工具 的 控制 台中 运行 下 面 的 代码 ): 


const x = tf.tensorld([-3, 0, -8]); 
tf.softmax(x) .print ();} 


softmax 滑 数 输出 的 3 个 元 又 满足 以 下 属性 : 都 在 [0, 1] 区 则 中 ; 总 和 为 1; 顺序 和 输入 问 量 
一 致 。 正 是 因为 这 些 属 性 ， 所 以 softmax 国 数 的 输出 可 以 理解 为 模型 对 可 能 的 分 类 类 型 分 配 的 概 
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率 值 。 在 之 前 的 代码 片段 中 ， 第 2 个 类 型 分 配 到 了 最 高 的 概率 ， 第 1 个 类 型 的 概率 则 最 低 。 
因此 ， 当 使 用 这 类 多 分 类 需 的 输出 时 ， 可 以 选择 输出 中 最 大 值 元 素 的 索引 作为 最 终 预 测 结 
果 ， 该 结果 代表 输入 样 例 的 所 属 类 型 。 这 可 以 通过 调用 argMax () 方 法 来 实现 ， 如 下 所 示 ( 摘 目 


index.js ): 




















Const predictOut = model.predict (input);} 
const winner = data.IRIS CLASSES[predictOut.argMax(-1) .aataSync() [0]]:; 








predqictout 是 形状 为 [numExamples，3] 的 二 维 张 量 。 在 调用 它 的 argMax () 方 法 后 ， 其 
形状 会 变 为 [numExample] 。argMax () 的 参数 值 -1 表示 ，argMax() 应 该 沿 着 最 后 一 个 维度 寻 
找 最 大 值 ， 并 返回 它们 的 索引 。 假 设 predictout 的 值 如 下 : 


【TU sv V6, Qed]s 
[0.8, 0 ，0.2] 


那么 ，argMax(-1) 就 会 返回 一 个 张 量 ， 如 下 所 示 。 这 个 张 量 表示 在 第 1 个 示例 和 第 2 个 示 
例 中 ， 最 后 一 个 (第 2 个 ) 维度 的 最 大 值 分 别 出 现 在 索引 1 和 索引 0 的 位 置 。 


Ey OO" 














3.3.3 ”分 类 区 又 炉 : 多 分 类 问题 的 损失 函数 


前 面 的 二 分 类 问题 示例 中 介绍 了 二 元 交 义 燃 可 以 用 作 损 失 函 数 , 同时 解释 了 其 他 相对 简单 的 
量 指标 不 能 用 作 损 失 函 数 的 原因 ( 比如 准确 率 和 召回 率 )。 多 分 类 问题 的 情况 其 实 相 当 相 似 ， 
也 包含 简单 的 度量 指标 , 如 表示 模型 正确 分 类 的 样 例 比例 的 准确 率 。 这 个 指标 对 理解 模型 的 性 
很 重要 。 下 面 这 段 代码 展示 了 如 何 使 用 这 一 指标 摘 日 代码 清单 3-9 )。 


model.compilel(t 
optimizer: optimizer, 

















巧 叶 漂 


loss: 'categoricalCrossentropy', 
metrics: ['accuracy'], 


7 


然而 ,准确 率 并 不 是 损失 国 数 的 好 选择 , 它 也 有 和 二 分 类 问题 中 的 准确 率 一 样 的 零 梯度 问题 。 
此 ， 我 们 为 多 分 类 问题 设计 了 一 个 特殊 的 损失 晒 数 : 分 类 交叉 精 (categorical cross entropy )， 
即 二 元 交叉 炉 对 超出 两 种 类 型 的 情况 的 泛 化 形式 ， 其 伪 代 码 如 代码 清单 3-10 所 示 。 


代码 清单 3-10 分 类 交叉 燃 损 失 函 数 的 伪 代 码 
function categoricalCrossentropy (oneHotTruth, probs): 
for 1 in (0 to length of oneHotTruth) 
if oneHotTruth(i) is equal to 1 
return -log (probs{[i]); 


以 上 的 伪 代 码 中 ，oneHotTruth 是 经 过 one-hot 编码 的 输入 样 例 的 真 类 型 ，props 是 模型 
中 softmax 函数 的 概率 输出 。 这 段 伪 代 人 码 提 供 了 一 个 重要 信息 ， 即 在 分 类 交叉 炉 方 面 ，probs 中 




















3.3 ”多 分 类 问题 95 











只 有 一 个 元 系 最 为 关键 ,， 那 就 是 索引 和 真 类 型 对 应 的 元 素 。 可 以 随意 改变 probs 中 的 其 他 元 系 ， 
只 要 不 改变 真 类 型 对 应 的 元 素 ， 就 不 会 影响 分 类 交叉 录 。 对 于 probs 中 与 真 类 型 对 应 的 元 素 ， 
它 越 是 接近 1， 交 又 焕 的 值 就 越 低 。 就 像 二 元 交叉 燃 一 样 , 分 类 交叉 燃 也 是 tf .metrics 命名 空 
则 下 的 孔 数 ,对 于 一 些 入 单 的 解释 性 示例 ， 可 以 用 该 函数 计算 相应 的 分 类 交叉 烂 。 下面 的 代码 展 
示 了 如 何 创建 一 个 假想 的 经 过 one-hot 编码 的 真 值 标 签 ( oneHotTruth ) 和 一 个 假想 的 概率 问 量 
(probs )， 并 以 此 计算 对 应 的 分 类 交叉 炉 : 

Const oneHotTruth = tf.tensorld([0, 1, 0]); 


const probs = tf.tensorld([0.2, 0.5, 0.3]); 
tf.metrics.categoricalCrossentropy (oneHotTruth, probs) .print (); 


这 个 示例 的 计算 结 采 为 0.693。 这 意味 者 当 模 型 分 配给 真 类 型 的 概率 为 0.5 时 , categorical- 
crossentropy 的 值 为 0.693。 可 以 用 代码 清单 3-10 中 的 伪 代 码 验 证 此 处 的 结果 , 也 可 以 增加 或 
降低 原本 的 值 0.5, 观察 categoricalcrossentropy 如 何 变化 ( 见 表 3-6 )。 表 3-6 的 最 后 一 列 
展示 了 one-hot 真 值 标签 和 概率 问 量 之 间 的 均 方 误差 。 


表 3-6 不 同 概率 输出 对 应 的 分 类 交叉 炉 。 在 尽量 让 本 示例 保持 可 泛 化 的 前 提 下 ， 每 一 行 的 样 例 中 都 包含 
3 种 类 型 (正如 高 尾 花 数 据 集 一 样 )， 其 中 的 第 2 种 类 型 则 是 真 类 型 





























one-hot 真 值 标 签 概率 (softmax 函数 的 输出 ) 分 类 交叉 灶 均 方 误差 
[0. 1, 0] [0.2, 0.5, 0.3] 0.693 0.127 
[0. 1, 0] [0.0, 0.5, 0.5] 0.693 0.167 
[0, 1, 0] [0.0, 0.9, 0.1] 0.105 0.006 
[0, 1, 0] [0.1. 0.9, 0.0] 0.105 0.006 
[0, 1, 0] [0.0, 0.99, 0.01] 0.010 0.00006 


比较 表 3-6 中 的 第 1 行 数据 和 第 2 行 数据 (或 第 3 行 数据 和 第 4 行 数 据 ), 可 以 看 到 ,改变 概 
率 癌 量 中 与 真 类 型 不 匹配 的 元 系 , 虽然 有 可 能 改变 one-hot 真 值 标签 和 概率 问 量 之 间 的 均 方 误差 ， 
但 是 并 不 会 影响 分 类 交叉 烽 。 同 时 ， 正 如 之 前 的 二 元 交 又 烂 一 样 ， 当 真 类 型 对 应 的 probs 值 接 
近 1 时 ， 均 方 误差 也 表现 出 了 边际 效应 递减 现象 。 因 此 ， 在 多 分 类 问题 中 ， 和 分 类 交叉 烂 相 比 ， 
均 方 误差 并 不 擅长 “ 辟 励 ”模型 进一步 提升 预测 真 类 型 的 概率 。 


3.3.4 混淆 和 矩 阵 ; 更 细 粒 度 地 分 析 多 分 类 问题 


在 车 尾 花 分 类 示例 的 Web 页 面 中 单 击 “Train Model from Scratch” 按 钮 ， 数 秒 后 束 会 得 到 一 
个 训练 过 的 模型 。 如 图 3-9 所 示 ， 经 过 40 个 轮 次 的 训练 ， 模 型 达到 了 近乎 完美 的 准确 率 。 这 反 
映 出 羌 尾 花 数 据 集 的 数据 量 不 大 ， 同 时 不 同类 型 在 特征 空间 方面 都 有 明晰 的 界限 。 

图 3-9 的 底部 展示 了 另 一 种 描绘 多 分 类 需 性 能 特征 的 方式 ， 那 就 是 多 分 类 融 的 混淆 矩阵 
( confusion matrix )。 该 混 消 窍 阵 根据 实际 类 型 与 模型 预测 的 类 型 对 多 分 类 融 的 结果 进行 了 细 分 ， 
它 是 一 个 形状 为 numclasses，numclasses] 的 方形 阜 阵 。 位 于 索引 [，J] (第 i 行 第 j 列 ) 
的 元 系 代 表 实 际 属于 类 型 i, 但 被 模型 分 类 为 j 的 样 例 数量 。 因 此 , 混 清 矩阵 对 角 线 上 的 元 系 对 
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应 的 是 正确 分 类 的 样 例 。 也 就 是 说 ， 对 于 从 完美 的 多 分 类 融 获 得 的 混 靖 算 阵 , 它 的 所 有 非 零 元 系 
应 该 部 集中 在 对 角 线 上 ， 如 图 3-9 所 示 。 
损失 
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图 3-9 在 训练 高 尾 花 分 类 模型 40 个 轮 次 后 一 般 会 得 到 的 结 末 。 左 上 角 : 损失 函数 和 训练 轮 次 的 
对 应 关系 。 右 上 角 : 准确 率 和 训练 轮 次 的 对 应 关系 。 左 下 角 : 混 靖 矩阵 


除了 展示 最 终 的 混 消 和 矩阵, 忘 尾 花 分 类 示例 还 会 在 每 个 训练 轮 次 结束 时 调用 onTrainEna () 
绘制 混 消 和 矩阵 。 

在 训练 的 前 期 , 也 就 是 最 初 的 几 个 轮 次 , 你 会 看 到 跟 图 3-9 不同 的 、 不 那么 完美 的 混 消 矩阵 。 
图 3-10 中 的 混 消 矩阵 表明 在 24 个 输入 样 例 中 有 8 个 分 类 错误 , 模型 的 准确 率 约 为 66.7%。 男 外 ， 
混 消 矩阵 不 止 包含 了 这 些 信 息 , 它 还 指明 了 发 生 错 误 的 主要 类 型 以 及 分 类 较为 准确 的 类 型 。 在 这 
个 示例 中 ， 所 有 来 自 第 2 种 类 型 的 花 都 被 误 分 为 第 1 种 类 型 或 第 3 种 类 型 ， 而 第 1 种 类 型 和 第 3 
种 类 型 的 花 的 分 类 都 是 正确 的 。 由 此 可 见 , 在 多 分 类 问题 中 , 混 消 矩阵 能 比 准确 率 传 达 更 多 关于 
模型 的 特征 信息 , 这 和 二 分 类 问题 中 的 情况 一 样 ， 就 是 结合 精确 率 和 召回 率 能 比 准确 率 提供 更 全 
面 的 信息 。 混淆 窍 阵 提供 的 信息 能 够 辅助 构建 模型 和 训练 过 程 中 的 决策 , 例如 混淆 不 同类 型 所 付 
出 的 代价 是 不 同 的 ， 有些 类 型 造成 的 影响 更 为 严重 。 也 就 是 说 ,与 把 体育 网 站 当成 钓鱼 诈 统 网 站 
相 比 ,把 体育 网 站 误 分 为 游戏 网 站 产生 的 影响 更 小 。 当 发 生 类 似 的 情况 时 ， 可 以 通过 调整 模型 的 
超 参 数 ， 来 最 小 化 关键 类 型 所 产生 的 影响 。 

本 书目 前 介绍 的 模型 都 将 数字 组 成 的 数组 作为 输入 , 换言之 , 每 个 输入 样 例 都 可 以 表示 为 数 
字 组 成 的 简单 列表 ,其 长 度 是 固定 的 , 并 且 在 元 系 排 序 方 面 ， 只 要 该 排序 对 于 所 有 输入 模型 的 样 
例 是 一 致 的 即 可 。 尽 管 此 类 模型 可 以 解决 很 大 一 部 分 涉及 机 需 学 习 领 域 的 重要 实际 问题 , 但 它 绝 
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不 是 唯一 的 解决 方案 。 在 后 续 的 内 容 中 , 我 们 会 了 解 一 些 更 复杂 的 输入 数据 类 型 ,包括 图 像 和 序 
列 。 第 4 章 将 介绍 图 像 ， 这 是 一 种 经 常 出 现 且 极 为 有 用 的 输入 类 型 ， 同 时 将 提 到 很 多 强大 的 神经 
网 络 架 构 , 这 些 架 构 的 发 明 初 衷 就 是 处 理 图 像 数据 , 它们 让 机 需 学 习 模 型 的 准确 率 达 到 了 超越 人 
类 的 水 平 。 
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图 3-10 不 “完美 ”的 混 消 和 矩阵， 在 对 角 线 外 还 有 非 零 元 素 。 该 混 消 和 矩阵 是 在 训练 2 个 
轮 次 后 得 到 的 ， 此 时 训练 还 未 收敛 


3.4 练习 


(1) 在 为 波士顿 房价 预测 问题 创建 神经 网 络 时 ， 我 们 最 后 使 用 的 模型 拥有 两 个 隐藏 层 。 前 面 提 
到 , 级 联 非 线性 函数 会 增强 模型 的 容量 , 根据 这 一 判断 ,你 觉得 为 该 模型 增加 更 多 的 隐藏 层 会 提升 
准确 率 吗 ”尝试 修改 index.js， 重 新 运行 训练 和 计算 过 程 来 验证 你 的 判断 ， 并 思考 以 下 两 个 问题 。 

a. 哪些 因素 会 导致 更 多 的 隐藏 层 无 法 提升 计算 准确 率 ? 

b. 你 是 如 何 得 到 这 一 结论 的 ? (提示 : 观察 模型 在 训练 集 上 的 误差 。) 

(2) 观察 代码 清单 3-6， 在 每 个 训练 轮 次 的 开始 处 ， 了 解 通过 onEpochBegin 回调 图 数 计算 
并 绘制 ROC 曲线 的 方法 。 参 照 这 个 模式 ， 沦 试 修改 该 回调 男 数 的 内 容 ， 并 在 每 个 训练 轮 次 开始 
时 ,基于 测试 集 的 计算 来 打印 模型 的 精确 率 和 召回 率 。 在 完成 打印 后 ,描述 这 些 度量 指标 随 着 训 
练 进程 的 推进 而 改变 的 方式 。 

(3) 观察 代码 清单 3-7, 了 解 其 计算 ROC 曲线 的 方式 ,尝试 根据 该 示例 ,编写 名 为 drawPreci- 
sionRecallCurve() 的 新 函数 。 顺 名 思 义 ,该 限 数 需要 计算 并 绘制 一 个 精确 率 - 召 回 率 曲 线 。 
一 旦 函数 编写 完毕 ， 试 着 在 onEpochBegin 中 调用 它 ， 这 样 每 当 训 练 轮 次 开始 时 ， 程 序 就 能 后 
时 绘制 精确 率 - 召 回 率 曲 线 和 ROC 曲线 。 同 时 ， 可 能 还 需要 在 uijs 中 修改 或 添加 一 些 代码 。 

(4) 假设 已 知 二 分 类 器 的 FPR 和 TPR， 能 否 通过 这 两 个 数字 计算 总 体 准确 率 ? 如 果 不 能 ,， 那 
么 还 需要 添加 哪些 信息 ? 

(5) 在 本 章 中 ， 二 元 交叉 燃 以 及 分 类 交 又 入 的 定义 都 是 基于 上 日 然 对 数 ( 底数 为 e 的 log 运算 ) 
的 。 如 果 改 变 定义 ， 让 10 作为 log 的 底数 ， 会 发 生 什 么 ? 这 会 给 二 分 类 需 和 多 分 类 需 的 训练 和 
推 凯 市 来 什么 影响 ? 
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(6) 将 代码 清单 3-4 中 的 网 格 搜索 伪 代 码 转 换 为 JavaScript 代码 ， 并 用 该 代码 对 代码 清单 3-1 
中 的 双 层 波士顿 房价 预测 模型 进行 超 参数 优化 , 也 就 是 调整 隐藏 层 的 单元 数 和 学 习 率 。 你 可 以 自 
行 决定 调 优 使 用 的 单元 数 和 学 习 率 搜索 范围 。 注意 ,机 器 学 习 工 程 师 通常 会 使 用 近似 几何 序列 作 
为 搜索 使 用 的 间隔 ， 比 如 单元 数 为 2、5、10、20、50、100 和 200 等 。 


3.5 ”小结 


口 分 类 任务 和 回归 任务 的 不 同 之 处 在 于 ， 前 者 需要 做 出 离散 的 预测 。 

口 分 类 任务 有 两 种 类 型 : 二 分 类 任务 和 多 分 类 任务 。 对 于 给 定 输 入 ， 前 者 有 两 种 可 能 的 类 
型 ， 后 者 则 有 3 种 或 更 多 种 类 型 。 

口 二 分 类 任务 通常 可 以 视 作 在 所 有 输入 样 例 中 ， 检 查 样 例 所 属 事件 类 型 或 相关 重要 目标 
( 比如 正 例 )。 在 这 种 视角 下 ， 我 们 可 以 使 用 精确 率 、 召 回 率 、FPR 和 准确 率 等 度量 指标 ， 
来 从 不 同 角 度量 化 二 分 类 妖 的 特征 。 

口 二 分 类 任务 通常 会 在 捕捉 所 有 正 例 与 最 小 化 假 正 例 ( 误 报 ) 之 间 取 舍 ，ROC 曲线 及 其 对 
应 的 AUC 度量 指标 则 有 助 于 量化 并 可 视 化 上 述 两 者 之 间 的 关系 。 

口 对 于 二 分 类 任务 的 神经 网 络 模型 ， 其 最 后 一 层 ( 输 出 层 ) 应 该 使 用 sigmoid 男 数 ， 同 时 模 
型 应 该 使 用 二 元 交 又 烂 损 失 活 数 进行 训练 。 

口 对 于 多 分 类 任务 的 神经 网 络 模型 ， 其 输出 目标 通常 会 用 one-hot 编码 来 表示 ， 在 输出 层 中 
使 用 softmax 因数 ， 同 时 使 用 分 类 交 义 科 损失 明 数 进行 训练 。 

口 对 多 分 类 任务 而 言 ， 相 较 于 准确 率 ， 混 消 和 矩阵 可 以 对 模型 犯 的 错误 提供 更 细 粒 度 的 信息 。 

口 表 3-7 总 结 了 目前 介绍 的 绝 大 部 分 机 融 学 习 任 务 类 型 的 推荐 处 理 方法 , 包括 回归 任务 、 二 
分 类 任务 和 多 分 类 任务 。 

口 超 参 数 指 与 机 可 学 习 模 型 架构 、 层 属性 以 及 训练 过 程 相 关 的 配置 信息 。 它 们 和 模型 的 权 
重 参 数 有 两 个 不 同 点 : 第 一 ， 它 们 在 模型 训练 过 程 中 是 固定 的 ; 第 二 ， 它 们 通常 是 离散 
的 。 超 参数 优化 是 指 寻找 能 够 实现 验证 集 上 的 损失 最 小 化 的 超 参 数组 合 的 过 程 ， 这 个 领 
域 的 研究 仍然 很 活路 。 当 前 ， 最 常用 的 超 参 数 调 优 方法 包括 网 格 搜索 、 随 机 搜索 以 及 贝 





















































叶 期 方法 。 
表 3-7 概览 最 常见 的 机 器 学 习 任务 类 型 ， 以 及 适合 它们 的 输出 层 激活 函数 、 训 练 用 损失 函数 和 相关 模型 度 
量 指标 
、 ps 汪 二 1.f£i 下 三 
任务 类 型 。” 输出 层 激活 函数 损失 函数 人 其 他 度量 指标 
的 度量 指标 
回归 任务 'linear' (默认 值 ) 'meansquaredError' 或 (与 损失 郴 数 相同 ) (无 ) 
ImeanAbSsolLuteETYTOT 
二 分 类 任务 'Sigmoid' 'binaryCrossentropy 'aCcuracy' 精确 率 、 召 回 率 、 精 确 率 - 召 
回 率 曲线 、ROC 曲线 和 AUC 
单 标签 、 En 'categoricalCrossentropy' 'accuracy,' 混 消 矩阵 





用 convnet 识别 图 像 和 音频 


口 将 图 像 和 首 频 这 样 的 感知 型 数据 表示 为 多 维 张 量 。 

口 convnet ( 卷 积 神经 网 络 ) 的 概念 、 工 作 原 理 及 其 适用 于 涉及 图 像 数 据 的 机 融 学 习 任 务 
的 原因 。 

口 使 用 TensorFlow.js 构建 和 训练 convnet， 并 用 它 分 类 手写 数字 。 

口 使 用 Node.js 更 快 地 训练 模型 。 

口 使 用 convnet 识别 音频 数据 中 包含 的 单词 。 


当下 正在 进行 的 深度 学 习 音 命 始 于 图 像 识别 任务 方面 的 突破 ， 比 如 ImageNet 竞赛 。 图 像 数 
据 处 理 涉 及 范围 较 广 ,包含 很 多 有 用 且 值 得 关注 的 技术 问题 ， 例 如 网 像 内 容 识 别 、 网 像 分 割 、 峰 
像 目 标 监 测 和 图 像 合 成 等 。 网 像 数 据 处 理 是 机 带 学 习 的 一 个 子 领域 ， 有 时 又 叫 作 计 算 机 视觉 
( computer vision ) "。 该 领域 的 技术 还 经 常会 被 移植 到 跟 计 算 机 视觉 或 图 像 处 理 无 关 的 领域 ， 比 
如 自然 语言 处 理 。 如 此 看 来 ， 学 习 计 算 机 视觉 中 的 深度 学 习 技 术 就 更 为 重要 了 ”。 在 深入 研究 计 
算 机 视觉 任务 之 前 ， 先 讨论 如 何 用 次 度 学 习 的 方法 表示 网 像 。 


4.1 从 回 量 到 张 星 : 图 像 数据 的 表示 方法 


第 2 曹 和 第 3 章 中 介绍 的 机 带 学 习 任 务 采 用 的 都 是 数值 形式 的 输入 。 比 如 在 第 2 章 中 ， 预 测 
下 载 任务 所 需 时 间 问 题 的 输入 是 单个 数字 (文件 的 大 小 ), 波士顿 房价 预测 问题 的 输入 是 由 12 个 
数字 组 成 的 数组 ( 分别 对 应 住宅 平均 房间 数 、 城 镇 人 均 犯 罪 率 等 特征 )。 这 些 问题 有 一 个 共同 点 ， 
即 每 个 输入 样 例 都 可 以 表示 为 局 平 的 ( 非 般 套 的 ) 数字 数组 , 它们 对 应 的 是 TensorFlow.js 中 的 一 
维 张 量 。 对 于 图 像 数据 ， 深 度 学 习 会 采用 一 种 不 同 的 表示 方式 。 




















中 注意， 计算 机 视觉 是 一 个 非常 广泛 的 领域 ， 它 还 包含 很 多 对 非 机 絮 学 习 技巧 的 研究 ， 但 这 些 内 容 不 在 本 书 讨 论 范 
关内 。 

@) 对 这 方面 技术 感 兴 趣 并 希望 进一步 了 解 的 读者 可 阅读 由 Mohamed Elgendy 所 著 的 Deep Learning for Vision Systems。 
该 书 即将 由 Manning 出 版 社 出 版 ， 本 书写 作 时 只 可 以 在 Manning 网 站 浏览 部 分 章节 内 容 。 
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深度 学 习 会 用 三 维 张 量 来 表示 图 像 数 据 。 张 量 的 前 两 个 维度 分 别 是 我 们 熟悉 的 高 度 和 宽度 ， 
第 3 个 维度 是 颜色 通道 ( color channel )。 举 例 来 说 ， 颜 色 常 用 的 编码 方法 是 RGB。 对 于 了 RGB 编 
人 码 ， 每 种 颜色 都 对 应 一 条 颜色 通道 ， 所 以 张 量 中 第 3 个 维度 的 尺寸 是 3。 也 就 是 说 ， 可 以 将 尺寸 
为 224 像 系 x 224 像素 的 、 采 用 RGB 编码 的 彩色 图 像 表 示 成 形状 为 [224，224，31 的 三 维 张 量 。 
有 些 计算 机 视觉 问题 的 图 像 输 入 并 不 是 彩色 的 ,它们 可 能 是 灰 度 的 。 在 这 些 场景 中 ,图 像 只 有 一 
个 颜色 通道 。 如 果 将 其 表示 为 三 维 张 量 ， 那 么 它 的 形状 是 [neight，wiath，1]1( 见 图 4-1 中 的 
示例 ) "。 

这 种 图 像 编 码 格式 叫 作 HWC 格式 ,， 即 “高 度 - 宽 度 -颜色 通才 ”height-width-channel ) 格式 。 
在 对 图 像 进行 深度 学 习 时 , 通常 会 将 一 组 图 像 数 据 组 合成 一 个 批 次 , 这 样 可 以 更 高 效 地 进行 并 行 
计算 。 在 将 图 像 打 包 成 批 次 时 ， 表 示 各 个 图 像 的 维度 总 是 第 1 个 维度 ， 这 与 第 2 章 和 第 3 章 中 将 
一 维 张 量 结合 为 二 维 张 量 类 似 。 因 此 ， 图 像 批 次 是 一 个 四 维 张 量 ， 这 四 个 维度 分 别 是 图 像 编 号 
(N )、 高 度 (H)、 宽 度 (W ) 和 颜色 通道 (C )， 这 种 编码 格式 叫 作 NHWC 格式 。 还 有 一 种 类 似 
的 替代 格式 ， 即 NCHW 格式 。 从 名 字 可 以 看 出 ， 这 两 种 格式 的 区 别 在 于 维度 的 排序 方式 ， 也 就 
是 说 ,在 NCHW 格式 中 ， 颜 色 通 道 维 度 放 在 高 度 维 度 和 宽度 维度 之 前 。TensorFlow.js 既 可 以 处 
理 NHWC 格式 的 图 像 , 也 可 以 处 理 NCHW 格式 的 图 像 。 但 为 了 保持 一 致 ,本 书 采 用 TensorFlow.js 


框架 中 默认 的 NHWC 格式 作为 图 像 编 码 格式 。 
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图 4-1 将 MNIST 数据 集中 的 图 像 表 示 为 深度 学 习 中 的 张 量 。 为 了 实现 可 视 化 ， 此 处 
将 MNIST 数据 集中 图 像 的 人 太 寸 从 28 像素 x 28 像 系 缩小 至 8 像素 x8 像 系 。 该 
图 像 是 灰 度 图 像 , 也 就 是 说 , 如 果 使 用 HWC 格式 来 编码 , 其 形状 为 [8, 838, 1]。 
本 图 省 略 了 最 后 一 个 维度 中 的 单个 颜色 通道 


(还 有 一 种 表示 方法 ， 即 将 图 像 的 所 有 像素 和 对 应 颜色 “ 打 平 ”成 一 个 一 维 张 量 ， 即 由 数字 组 成 的 扁平 数组 。 不 过 
这 样 会 破坏 闫 色 通 道 间 的 内 在 联系 ， 以 及 像 系 之 间 的 二 维 空间 关系 ， 导 人 致 之 后 难以 对 这 些 关 系 加 以 利用 。 
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MNIST 数据 集 


本 章 重点 介绍 的 计算 机 视觉 问题 是 基于 MNIST 数据 集 ? 的 手写 数字 分 类 问题 。MNIST 数据 
集 在 计算 机 视觉 和 深度 学 习 领 域 极其 常用 , 并 且 有 着 非常 重要 的 地 位 。 它 常 被 视 作 这 两 个 领域 的 
“hello world”。 和 深度 学 习 领 域 的 绝 大 部 分 数据 集 相 比 , MNIST 数据 集 比 较 旧 而 且 所 含 数据 较 少 ， 
但 是 熟悉 它 还 是 很 有 帮助 的 , 这 是 因为 它 的 使 用 范围 比较 广泛 , 而 且 通 常 是 验证 新 的 深度 学 习 技 
术 好 坏 的 试金石 。 

MNIST 数据 集中 的 所 有 样 例 都 是 28 像素 x 28 像素 的 灰 度 图 像 (与 图 4-1 中 的 图 像 类 似 )。 
这 些 图 像 都 取 自 真实 的 手写 数字 ， 共 包括 10 种 类 型 ( 0~9 )。 尽 管 这 些 图 像 的 尺寸 要 小 于 一 般 计 
算 机 视觉 问题 所 涉及 的 图 像 尺 寸 , 但 是 它们 已 足以 用 于 对 简单 的 形状 做 出 可 靠 的 判断 。 另 外 ， 
个 图 像 都 附 有 明确 的 标签 , 标注 图 像 实际 对 应 的 数字 。 与 之 前 的 下 载 所 需 时 间 数 据 集 以 及 波士顿 
房价 数据 集 一 样 ， 这 里 的 数据 也 被 分 成 了 训练 集 和 测试 集 。 训 练 集 由 60 000 个 图 像 组 成 ,测试 
集 则 包含 10 000 个 图 像 。MNIST 数据 集 ? 的 样 例 分 布 大 致 上 是 平衡 的 ， 也 就 是 说 10 种 类 型 ( 10 
个 数字 ) 对 应 的 样 例 数量 大 致 相等 。 
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当 了 解 图 像 数 据 及 其 标签 的 表示 方法 后 ， 回 顾 MNIST 数据 集 的 手写 数字 分 类 问题 ， 自 然 就 
知道 了 该 问题 所 需 的 神经 网 络 输入 及 其 对 应 生成 的 输出 内 容 。 神 经 网 络 的 输入 是 采用 NHWC 格 
式 表示 的 张 量 ， 其 形状 为 [nul1，28，28，11; 其 输出 是 形状 为 [nul1，10] 的 张 量 ， 其 中 第 2 
个 维度 对 应 10 个 可 能 的 数字 。 这 里 采用 的 是 标准 的 多 分 类 目标 的 one-hot 编码 方法 ,这 和 第 3 草 
苇 尾 花 数 据 集 分 类 示例 中 对 苇 尾 花 亚 属 采用 的 one-hot 编码 方式 如 出 一 略 。 有 了 这 些 铺垫 ， 就 可 
以 进一步 探索 convnet 了 ， 它 是 MNIST 这 样 的 图 像 分 类 任务 的 首选 方法 ， 其 中 的 “ 卷 积 ” 
( convolution ) 听 起 来 可 能 有 些 复杂 ,但 它 其 实 只 是 一 种 数学 运算 ， 稍 后 将 对 其 展开 介绍 。 

本 示例 的 代码 位 于 二 s-examples 代码 仓库 的 mnist 文件 夹 。 束 和 之 前 的 示例 程序 一 样 ， 可 以 
用 以 下 方式 下 载 并 运行 它 。 


git clone https://github.com/tensorflow/tfjs-examples.git 





























cd tfjs-examples/mnist 
yarn && yarn watch 


代码 清单 4-1 摘 目 mnist 示例 程序 的 主 文件 ， 也 就 是 index.js。 它 负责 创建 MNIST 数据 集 的 





Q) MNIST 数据 集 表 示 经 过 改进 的 NIST 数据 集 。 其 中 ，NIST 是 美国 国家 标准 与 技术 人 研究 所 ( National Institute of 
Standards and Technology ) 的 简称 ， 这 是 因为 NIST 数据 集 是 由 该 研究 所 收集 并 整理 完成 的 。M 表示 “经 过 改进 ” 
的 (modified )， 体 现 了 MNIST 数据 集 是 在 原 NIST 数据 集 基 础 之 上 所 做 的 改进 。MNIST 数据 集 主 要 改进 了 两 个 
方面 : 第 一 ， 将 图 像 标准 化 为 统一 的 28 像素 x 28 像素 ， 并 进行 抗 饥 齿 处 理 ， 这 让 训练 集 和 测试 集 更 加 一 致 ， 第 
二 ， 确 保 训 练 集 和 测试 集 的 手写 数字 来 自 没 有 重合 的 两 组 参与 者 。 这 些 改进 让 数据 集 变 得 更 易 用 ， 并 且 能 够 更 加 
客观 地 计算 模型 的 准确 率 。 

@) 参见 Yann LeCun 、Corinna Cortes 和 Christopher J.C. Burges 的 文章 “The MNIST Database of Handwritten Digits”。 
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convnet 模型。 此 处 创建 的 顺序 模型 ( sequential model ) 的 层 数 为 7 层 ， 相 比 之 前 示例 中 的 1~3 
层 ， 它 使 用 的 层 数 较 多 。 


代码 清单 4-1 定义 MNIST 数 据 集 的 convnet 模型 
function createConvModel() { 
const model = tf.sequential(); 


model.add (tf.layers.conv2d(t{ 
inputShape: [IMAGE H, IMAGE W, 1], 
kernelSize: 3， 第 1 层 为 conv2d 层 
filters: 16, 
activation: 'relu,' 

})); 

model.add (tf.layers.maxPooling2d(t 
poolSize: 2， 





strides: 2 卷 积 后 进行 池 化 
Ps 
moOdel .add(tf,1ayerea. Conv2d (1 重复 出 现 的 conv2d- 
kernelSize: 3, filters: 32, activation: 'relu'})); maxPooling2d 组 合 


model.add (tf.layers.maxPooling2d({poolSize: 2, strides: 2})); 








model.add (tf.layers.flatten()); < 一 为 密集 层 扁 平 化 张 量 
model.add (tf.layers.denselt 
units: 64, 为 多 分 类 问题 配置 归 一 化 
outivations reln 指数 激活 函数 
})); 
model.add(tf.layers.dense({units: 10, activation: 'softmax'}));} 
model.summary (); ”< 一 一 打印 模型 拓扑 结构 的 文字 报告 


return model; 


} 


通过 逐个 调用 aga() 方 法 ,代码 清单 4-1 中 的 代码 创建 了 包含 7 层 的 顺序 模型 。 在 深入 了 解 
这 些 层 所 涉及 的 运算 细节 前 ， 先 看 看 图 4-2 中 的 模型 整体 架构 。 如 图 所 示 ， 模 型 的 前 5 层 由 卷 积 
层 ( convolutional layer， 对 应 图 中 的 conv2d )、 池 化 层 (pooling layer， 对 应 图 中 的 maxPooling2d ) 
和 扁平 化 层 ( flatten layer， 对 应 图 中 的 flatten ) 组 成 。 其 中 conv2d 层 和 maxPooling2d 层 的 组 合 
是 特征 提取 ( feature extraction ) 的 核心 ， 这 里 连续 出 现 了 两 次 ， 其 输出 最 终 会 传人 忆 平 化 层 。 
一 层 都 会 对 输入 的 图 像 进 行 转换 ， 然 后 输出 转换 的 结果 。conv2d 层 通 过 将 卷 积 核 ( convolutional 
kernel ) 沿 厦 输入 网 像 的 高 和 宽 这 两 个 维度 请 动 ， 对 输入 网 像 进行 转换 。 每 当 卷 积 核 滑 到 一 个 位 
置 ， 它 都 会 和 输入 图 像 的 像素 相 乘 ， 加 总 乘积 ， 册 将 结 采 输入 一 个 非 线性 轴 数 ， 最 终结 采 就 是 输 
出 图 像 中 的 像 系 。maxPooling2d 层 的 工作 原理 与 之 类 似 , 但 是 没有 核 的 概念 。 随 者 输入 图 像 经 过 
层 登 的 卷 积 层 和 池 化 层 , 每 层 输出 的 张 量 尺寸 会 越 来 越 小 , 同时 张 量 在 特征 空间 也 会 变 得 越 来 越 
抽象 。 最 后 的 池 化 层 输出 会 通过 局 平 化 转换 成 一 维 张 量 。 该 张 量 最 后 会 进入 密集 层 ( 图 4-2 没有 
展示 )。 
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图 4-2 概览 代码 清单 4-1 中 创建 的 简单 convnet 的 架构 。 为 了 方便 展示 , 图 中 显示 的 输入 
图 像 尺 寸 ， 以 及 中 间 层 输出 的 张 量 ， 要 比 代 码 清单 4-1 中 模型 定义 的 实际 尺寸 更 
小 。 卷 积 核 的 尺寸 也 是 如 此 。 需 要 注意 的 是 ， 图 中 的 每 个 中 间 层 输出 的 四 维 张 量 
都 只 显示 了 单个 通道 ， 而 实际 模型 中 间 层 输出 的 张 量 包 含 多 个 通道 
可 以 将 convnet 看 作 采 用 卷 积 层 和 池 化 层 预 处 理 输入 数据 的 MLP。 此 处 的 MLP 与 之 前 波 士 
顿 房价 预测 问题 和 钓鱼 网 站 检测 问题 中 的 MLP 类 型 完全 相同 : 它们 都 由 密集 层 和 非 线 性 激活 也 
数组 成 。 而 convnet 的 不 同 之 处 在 于 , MLP 的 输入 是 级 联 的 conv2d 层 和 maxPooling2d 层 的 输出 。 
这 些 层 是 专 为 图 像 输入 设计 的 , 能 够 从 图 像 输 入 提取 有 用 的 特征 。 这 一 架构 是 神经 网 络 领域 的 多 
年 研 究 成 果 ， 相 比 耳 接 将 图 像 的 像 系 值 传人 MLP， 其 在 准确 率 方 面 有 极 大 的 提升 。 
了 解 MNIST 的 convnet 模 型 的 整体 架构 后 ， 接 下 来 进一步 探索 模型 中 每 一 层 的 内 部 结构 。 
































4.2.1 conv2d 层 


模型 的 第 一 层 是 conv2d 层 ， 该 层 负责 二 维 卷 积 。 这 是 本 书 第 一 次 提 及 卷 积 层 。 它 负责 做 些 
什么 呢 ? conv2d 是 一 种 图 像 到 图 像 的 转换 。 也 就 是 说 ,如 果 输 入 图 像 是 四 维 的 图 像 张 量 (NHWC 
格式 )， 那 么 输出 图 像 仍 会 是 四 维 图 像 张 量 ， 只 不 过 高 度 、 宽 度 以 及 通道 个 数 可 能 会 有 所 不 同 。 
(conv2d 层 葛 然 能 处 理 四 维 张 量 ?其实 这 并 不 奇怪 ， 因 为 四 维 张 量 包含 两 个 额外 的 维度 ， 一 个 维 
度 表 示 样 例 批 次 , 另 一 个 维度 表示 通道 。) 可 以 将 conv2d 看 作 一 系列 简单 的 “Photoshop 滤 镜 ””。 
正 是 这 些 “ 波 镜 ” 或 者 更 准确 地 说 ， 过 滤器 ( filter ) 实现 了 如 模糊 或 锐 化 这 样 的 特效 。 
这 一 过 程 是 通过 将 一 个 小 的 像 么 窗口 在 输入 图 像 上 滑动 实现 的 ,这 个 像 系 窗 口 就 是 上 文 提 到 的 卷 
只 核 ， 也 可 人 简称 为 核 ( kernel )。 它 每 滑动 到 一 个 位 置 ， 就 会 和 与 它 重 登 的 输入 网 像 部 分 相 乘 。 这 
乘法 是 针对 每 个 重 登 的 像 系 逐个 进行 的 。 最 后 将 这 些 像素 乘 得 的 积 求 和 ， 就 得 到 了 输出 网 像 中 
人 
相 较 密集 层 而 言 ，conv2d 层 需要 配置 更 多 参数 。kernelSize 和 filters 是 其 中 两 个 关键 
参数 。 要 理解 它们 的 含义 ， 需 要 先 从 概念 层面 理解 二 维 卷 积 是 如 何 工作 的 。 
图 4-3 更 详尽 地 展示 了 二 维 卷 积 的 概念 。 此 处 假设 输入 的 是 一 个 简单 的 图 像 张 量 (左上 角 )， 
它 仅 包含 单个 样 例 ， 这 样 就 可 以 在 纸 上 轻 松 地 画 出 它 的 示意 图 。 假 设 conv2d 层 运 算 的 参数 为 
kernelSize = 3 和 filters = 3。 因 为 输入 图 像 有 两 个 颜色 通道 ( 两 个 颜色 通道 的 图 像 在 现 
































Q 这 一 比喻 来 自 Ashi Krishnan 在 2018 年 的 欧洲 JavaScript 开发 者 大 会 上 所 做 的 题 为 “Deep Learning in JS” 的 演讲 。 
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实 中 并 不 多 见 ， 此 处 选择 两 个 通道 是 为 了 方便 演示 )， 所 以 卷 积 核 是 形状 为 [3，3，2，3] 的 张 
量 。kernelSize 决定 了 形状 中 的 前 两 个 数字 ,它们 都 是 3， 分 别 表示 核 的 高 和 壳 。 第 三 个 维度 
的 2 对 应 的 是 输入 图 像 的 通道 数量 。 第 四 个 维度 的 3 指 的 是 什么 呢 ?” 它 指 的 是 过 滤 磊 的 数量 ,并 
等 于 conv2d 层 输出 的 张 量 的 最 后 一 个 维度 。 
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图 4-3 ”conv2D 层 的 工作 原理 示意 图 。 为 了 简化 问题 ， 此 处 假设 输入 张 量 (左上 角 ) 仪 包含 单个 
样 例 ， 也 就 是 一 个 三 维 张 量 。 它 的 维度 分 别 是 高 、 宽 和 深度 〈 即 颜色 通道 )。 同 样 是 为 了 
简化 问题 ， 此 处 还 省 略 了 张 量 的 批 次 维度 ， 同 时 将 其 深度 设 为 2。 注 意 , 本 示例 使 用 的 图 
像 高 度 和 宽度 (4 和 5 ) 要 比 一 般 的 真实 图 像 小 得 多 。 它 的 深度 2 也 比 一 般 的 彩色 图 像 深 
度 小 (比如 RGB 图 像 和 RGBA 图 像 的 深度 分 别 为 3 和 4)。 假设 conv2D 层 的 filters 
属性 ， 即 过 滤 需 数量 为 3; kernelSize， 即 卷 积 核 尺 十 为 [3，31; 步 幅 为 [1，1]。 二 
维 卷 积 的 第 一 步 是 将 卷 积 核 沿 着 高 和 宽 维 度 滑 动 ， 并 截取 输入 图 像 区 块 。 每 个 区 块 高 和 
宽 均 为 3, 正好 与 过 滤 需 的 斥 寸 相 匹配 ; 区 块 的 深度 也 和 原 输 入 图 像 是 一 致 的 。 第 二 步 是 
计算 3 x 3 x 2 个 区 块 中 的 每 个 区 块 和 每 个 卷 积 核 ( 即 过 滤 带 ) 的 点 积 。 图 4-4 展示 了 点 
只 运 算 的 细节 。 卷 积 核 是 由 三 个 过 滤 琵 构成 的 四 维 张 量 。 图 像 区 块 与 三 个 过 滤 带 之 间 的 
点 积 是 独立 发 生 的 。 计 算 点 积 的 过 程 就 是 将 图 像 区 块 与 过 滤 需 对 应 位 置 的 元 素 相 乘 ， 然 
后 将 所 有 的 乘积 求 和 ， 结 果 就 是 输出 张 量 中 的 一 个 像素 值 。 因 为 卷 积 核 中 包含 三 个 过 滤 
器 ， 所 以 经 过 点 积 运算 ， 每 个 图 像 区 块 都 会 被 转换 成 由 三 个 像素 组 成 的 一 个 像素 组 。 最 
后 ， 将 这 些 像素 组 合并 成 一 个 整体 ， 就 得 到 了 输出 张 量 。 它 的 形状 为 [2，3，3] 
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如 果 将 conv2d 层 的 输出 看 作 图 像 张 量 ( 完全 可 以 这 么 理解 ), 那么 过 滤 需 的 数量 就 可 以 看 作 
输出 的 通道 数量 。 和 输入 图 像 不 同 , 输出 张 量 的 通道 不 一 定 和 颜色 有 关 。 它 们 表示 从 训练 集中 习 
得 的 输入 图 像 的 不 同 视觉 特征 。 不 同 的 过 滤器 会 对 不 同 的 视觉 特征 敏感 。 例如， 有 的 过 滤器 对 某 
个 笔直 的 明暗 分 界线 很 敏感 ， 而 有 的 过 滤器 则 可 能 对 角落 里 的 柠 色 区 域 很 敏感 ， 以 此 类 推 。 我们 
之 后 将 对 此 详细 介绍 。 

上 文 提 到 卷 积 核 的 “滑动 ”行为 , 在 此 处 是 指 逐 步 截 取 输 入 图 像 的 不 同 区 块 (patch )。 其 中 每 
一 个 区 块 的 高 和 过 都 等 于 kernelSsize (此 处 为 3)。 因为 输入 网 像 的 高 为 4,， 并 且 3 x 3 的 滑动 窗 
口 不 能 超出 输入 图 像 的 边缘 ， 所 以 在 高 这 一 维度 只 有 两 个 可 以 请 动 的 位 置 。 同 理 ， 输 入 图 像 的 宽 
为 $， 所 以 在 该 维度 只 有 3 个 可 以 滑动 的 位 置 。 因 此 ， 总 共 可 以 从 输入 图 像 截取 2 x 3 = 6 个 部 分 。 

每 当 窗 口 消 动 到 一 个 新 位 置 ， 就 会 发 生 一 次 点 积 运 算 。 之 前 提 到 卷 积 核 的 形状 为 [3，3，2， 
3] 。 可 以 将 这 个 四 维 张 量 沿 着 最 后 一 个 维度 切 分 为 三 个 独立 的 三 维 张 量 切片 , 其 中 每 一 个 的 形状 
为 [3，3，2] ， 如 图 4-3 中 的 虚线 部 分 所 示 。 选 择 一 个 输入 图 像 区 块 和 一 个 卷 积 核 三 维 张 量 切片 ， 
将 它们 对 应 位 置 的 元 素 相 乘 ， 然 后 对 由 此 获得 的 3x3x2=18 个 乘积 求 和 ， 结 果 就 是 输出 张 量 中 
的 一 个 像素 值 。 图 4-4 更 详细 地 展示 了 点 积 的 运算 步骤 。 输 入 图 像 区 块 和 卷 积 核 切片 形状 相同 ， 
这 不 是 巧合 ,因为 我 们 就 是 按照 卷 积 核 的 形状 稚 取 的 输入 图 像 。 卷 积 核 的 三 个 张 量 切 片 会 对 同一 
个 输入 图 像 区 块 进行 上 述 的 乘积 累加 (multiply-add ) 运算 ， 因 此 会 获得 一 组 ( 共 三 个 ) 像素 值 。 
对 每 个 输入 图 像 区 块 重复 这 一 步骤 ， 就 会 得 到 六 组 这 样 的 像素 值 。 这 六 组 像素 值 分 别 对 应 图 4-3 
中 的 六 列 方块 。 这 六 列 方块 最 后 会 合并 成 一 个 整体 ， 形 成 最 终 的 输出 。 输 出 的 形状 为 [2，3，3] 
(HWC 格式 )。 
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图 4-4 二 维 卷 积 运 算 中 的 点 积 ( 即 乘 积累 加 ) 运算 示意 图 。 这 是 图 4-3 中 的 二 维 卷 积 
的 整体 流程 中 的 一 步 。 为 了 方便 展示 ,假设 图 像 区 块 (x ) 只 包含 一 个 颜色 通 
道 。 图 像 批 次 的 形状 为 [3，3，1]， 也 就 是 说 ， 和 卷 积 核 切 片 (K) 的 尺寸 相 
同 。 第 一 步 是 将 对 应 位 置 的 元 素 相 乘 ， 得 到 一 个 新 的 形状 为 [3，3， 11] 的 张 量 。 
然后 ， 对 新 张 量 中 的 所 有 元 素 求 和 ( 由 符号 表示 )， 得 出 的 就 是 结果 














106 第 4 章 用 convnet 识别 图 像 和 音频 


和 密集 层 类 似 ，conv2d 层 也 有 一 个 偏差 项 ， 它 会 补 加 到 卷 积 的 结果 上 。 同 时 ，conv2d 层 通 
常会 使 用 非 线性 激活 函数 。 本 示例 使 用 的 是 ReLU 激活 函数 。 在 第 3 章 的 “避免 只 增加 层 而 不 增 
加 非 线 性 的 诬 误 ”这 一 扩 中 ， 我们 敬告 过 : 如 末 只 是 堆 登 两 个 密集 层 ， 但 不 放 加 任何 非 线 性 , 那 
么 就 和 只 使 用 单个 密集 层 是 等 效 的 。 对 于 conv2d 层 ， 需 要 注意 类 似 的 问题 : 如 果 只 是 堆 琶 两 个 
二 维 卷 积 层 , 但 不 使 用 非 线 性 激活 函数 ,那么 就 和 只 使 用 单个 二 维 卷 积 层 加 一 个 更 大 的 卷 积 核 在 
数学 上 是 等 将 的 。 因 此 ， 应 该 尽量 避免 这 种 低 殖 的 创建 convnet 的 方式 。 

终于 可 以 明 口 气 了 1 以 上 就 是 conv2d 层 的 全 部 工作 原理 了 。 证 我 们 回顾 一 下 conv2d 的 实际 

作用 是 什么 。 简 而 言 之 ， 它 以 一 种 特殊 的 方式 ， 将 输入 图 像 转换 成 输出 图 像 。 一 般 而 言 ， 输 出 图 
像 的 高 和 贤 会 比 输入 图 像 的 高 和 宽 更 小 。 变 小 多 少 取 雇 于 kernelsize 的 配置 。 输 出 图 像 的 通 
道 数量 和 输入 图 像 的 通道 数量 没有 必然 联系 ， 而 是 取决 于 filters 的 配置 。 

综 上 ,conv2d 是 一 种 图 像 到 图 像 的 转换 。 它 的 两 个 关键 特性 是 局 部 性 ( locality ) 和 参数 共享 

( parameter sharing )。 
口 局 部 性 指 输出 图 像 中 的 一 个 特定 的 像素 信 只 会 受到 一 个 小 的 输入 图 像 区 块 影 响 ， 而 不 是 
输入 图 像 中 的 所 有 像 双 影响 。 区 块 的 尺寸 为 kernelSize。 这 种 局 部 性 正 是 conv2d 层 与 
密集 层 不 同 的 地 方 : 密集 层 中 ， 每 个 输出 元 素 都 会 受到 每 个 输入 元 系 的 有 影响。 换言之 ， 
输入 元 素 与 输出 元 素 在 密集 层 中 是 “密集 连接 的 ”( 密集 层 正 是 由 此 得 名 )。 因 此 ， 可 以 
说 conv2d 层 是 “ 稀 玖 连接 的 ”。 密集 层 学 习 的 是 输入 的 全 局 性 特征 ， 卷 积 层 学 习 的 则 是 输 
和 人 的 局 部 性 特征 ， 即 卷 积 核 所 对 应 的 窗口 内 的 特征 。 
口 参数 共享 指 输 出 像素 A 的 输入 区 块 对 像素 A 的 影响 方式 ， 与 输出 像素 B 的 输入 区 块 对 像 
素 B 的 影响 方式 相同 ,这 是 因为 每 个 滑动 位 置 计算 点 积 使 用 的 是 相同 的 着 积 核 ( 见 图 4-3 )。 
因为 具有 局 部 性 和 参数 共享 这 两 个 特性 , 就 涉及 的 参数 数量 而 言 , conv2d 层 是 一 种 非常 高 效 
的 图 像 到 图 像 转换 。 具 体 而 言 ， 卷 积 核 的 尺寸 不 会 改变 输入 图 像 的 高 或 冤 。 回 到 代码 清单 4-1 中 
的 第 一 个 conv2d 层 ， 卷 积 核 的 形状 为 [kernelSeize, kerneleize, 1,. filter]| (MIS,. 5. 
1，8] )。 因 此 ， 无 论 输 入 的 MNIST 网 像 尺 寸 是 28 像素 x 28 像 素 还 是 更 大 ， 它 有 且 只 有 5x5 x 
1 x 8 = 200 个 参数 。 使 用 该 卷 积 层 转换 一 个 拥有 28 x 28 x 1 = 784 个 元 素 的 输入 张 量 ， 结 果 会 得 
到 一 个 拥有 24 x 24 x 8=4608 个 元 素 的 新 张 量 。 如 有 果 使 用 密集 层 去 实现 这 种 转换 的 话 ， 需 要 多 少 
个 参数 呢 ? 答案 是 784 x 4608 = 3 612 672 个 〈 不 包括 侦 差 )。 这 大 约 是 使 用 conv2d 层 的 18 000 
倍 ! 这 个 小 小 的 思想 实验 诠释 了 卷 积 层 的 高 效 。 

conv2d 的 局 部 性 和 参数 共享 这 两 个 特性 的 魅力 , 不 仅仅 在 于 它们 的 高 效 , 而 且 还 在 于 它们 在 
某 种 程度 上 和 人 的 视觉 系统 有 一 定 的 相似 性 。 以 视网膜 中 的 神经 元 为 例 。 每 个 神经 元 都 只 受到 有 眼 
青 视 对 的 一 个 小 区 块 的 影响 ， 这 个 小 区 块 叫 作 感受 野 ( receptive field )。 假 设 有 两 个 位 于 不 同 视 
网 膜 区 域 的 神经 元 。 它们 会 以 几乎 相同 的 方式 回应 其 对 应 的 感受 野 感 知 到 的 光照 模式 。 这 一 点 和 
conv2d 层 的 参数 分 享 特性 有 异曲同工 之 妙 。 除 此 之 外 ，conv2d 层 还 对 计算 机 视觉 问题 非常 适用 ， 
我 们 即将 在 MNIST 数据 集 上 验证 这 一 点 。 

conv2d 是 一 个 精巧 的 神经 网 络 层 ， 它 羔 具 以 下 优点 : 高 效 、 准 确 , 并 且 与 人 的 视觉 系统 有 相 
似 之 处 。 难 怪 它 在 深度 学 习 中 会 有 如 此 广泛 的 应 用 。 
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4.2.2 maxPooling2d 层 


了 解 conv2d 层 后 ， 让 我 们 进一步 探索 顺序 模型 的 下 一 层 一 一 maxPooling2d 层 。 就 像 conv2d 
一 样 ，maxPooling2d 也 是 一 种 图像 到 网 像 的 转换 。 但 maxPooling2d 的 转换 要 比 maxPooling2d 的 
转换 更 人 简单。 如 图 4-5 所 示 ， 它 仅仅 计算 了 图 像 区 块 中 的 最 大 值 ， 并 用 该 值 作 为 输出 的 像素 值 。 
这 一 过 程 就 是 最 大 池 化 ( max pooling )。 下 面 的 代码 定义 并 添加 了 maxPooling2d 层 。 


model.add (tf.layers.maxPooling2d({poolSize: 2, strides: 2})); 























图 4-5 maxPooling2d 工作 原理 示例 。 图 中 使 用 的 是 尺寸 为 4 x 4 的 小 图 像 ， 并 将 
maxPooling2d 层 的 boolsize 和 strigdes 分 别 配置 为 [2，2] 与 [2，2]。 
此 处 并 没有 展示 深度 维度 ,但 是 最 大 池 化 运算 是 独立 于 该 维度 进行 的 
在 这 个 示例 中 ， 图 像 区 块 的 高 和 宽 为 2 x 2， 因 为 配置 的 poolsize 为 [2，2]。 滑 动 窗口 每 
隔 两 个 像 系 会 截取 一 个 图 像 区 块 。 图 像 区 块 之 则 的 间 阳 由 strides 的 值 [2, 2] 决 定 。 因 此 ， 输 
出 图 像 的 形状 为 [12，12，8] (HWC 格式 )。 输出 图 像 的 高 和 宽 是 输入 网 像 (形状 为 [24，24， 
8] ) 的 一 半 ， 但 通道 数量 是 相同 的 。 
convnet 中 的 maxPooling2d 层 有 两 个 主要 作用 。 第 一 个 作用 是 ， 它 会 使 convnet 不 易 受 到 输 
人 图 像 中 关键 特征 的 具体 位 置 的 影响 。 例如， 如 有 果 目 标 是 识别 数字 “8”， 那么 无 论 数字 部 分 位 于 
尺寸 为 28 像素 x 28 像 系 的 输入 网 像 的 哪个 位 置 ， 是 左 侧 、 右 侧 、 上 侧 还 是 下 侧 ， 都 应 该 准确 地 
识别 出 数字 。 这 一 特性 叫 作 位 置 不 变性 ( positional invariance )。 要 理解 为 什么 maxPooling2d 层 能 
增强 模型 的 位 置 不 变性 ， 需 要 先 理 解 一 个 事实 ， 即 maxPooling2d 层 在 处 理 每 个 图 像 区 块 时 并 不 
在 乎 最 大 像素 值 的 位 置 ， 只 在 乎 它 是 否 位 于 当前 的 网 像 区 块 中 。 不 得 不 说 ， 单 个 maxPooling2d 
层 对 模型 位 置 不 变性 的 增强 是 有 限 的 ， 因 为 它 的 池 化 窗口 并 不 大 。 然 而， 如 采 给 同一 个 convnet 
加 入 多 个 maxPooling2d 层 , 那么 它 的 位 置 不 变性 就 会 有 质 的 飞 牙 。 这 正 是 我 们 的 MNIST 模 型 所 
采用 的 条 略 ， 同 时 也 是 几乎 所 有 被 实际 应 用 的 包含 两 个 maxPooling2d 层 的 convnet 的 共同 特点 。 
作为 一 个 思想 实验 ， 如 果 将 两 个 conv2d 层 (分 别 命名 为 conv2d_ 1 和 conv2d 2 ) 直接 堆 闭 在 
一 起 ， 而 不 使 用 任何 maxPooling2d 层 作 为 中 间 层 ， 会 发 生 什 么 ? 假设 两 个 conv2d 层 的 
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kernelSize 都 是 3， 那么 conv2d 2 的 输出 张 量 中 的 每 个 像素 都 是 关于 conv2d 1 的 原本 输入 中 
的 一 个 5 x5 区 域 的 函数 。 我 们 将 此 看 作 conv2d 2 层 的 每 个 神经 元 都 有 一 个 尺寸 为 5 x5 的 感受 
野 。 如 采 在 两 个 conv2d 层 之 间 加 入 一 个 maxPooling2d 层 ( 就 如 我 们 对 MNIST 数据 集 使 用 的 
convnet 那样 ) 会 发 生 什 么 呢 ? conv2d 2 的 感受 野 尺寸 会 扩大 为 11 x 11。 这 当然 是 池 化 运算 造成 
的 。 当 convnet 有 多 个 maxPooling2d 层 时 ， 靠 后 的 层 会 有 更 宽 的 感知 野 和 更 好 的 位 置 不 变性 。 人 徇 
而 言 之 ， 它 们 有 更 广阔 的 视野 1 

maxPooling2d 层 的 第 二 个 作用 是 缩小 输入 张 量 的 高 和 宽 。 这 样 会 极 大 减少 后 续 层 以 及 整个 
convnet 的 计算 量 。 例 如 , 第 一 个 conv2d 层 的 输出 张 量 形状 为 [26，26,，16]。 经 过 maxPooling2d 
层 的 处 理 后 ， 张 量 的 形状 会 变 为 [13，13，16] ， 也 就 是 说 将 张 量 的 元 素 总 数 减 小 到 原来 的 1/4。 
第 二 个 maxPooling2d 层 会 进一步 减少 后 组 层 需要 优化 的 权重 参数 数量 ， 以 及 这 些 层 的 元 系 间 的 
数学 计算 量 。 


4.2.3 ”重复 出 现 的 卷 积 层 加 池 化 层 组 合 模式 


理解 了 第 一 个 maxPooling2d 层 后 ， 接 下 来 着 重 将 讲解 convnet 的 后 两 层 。 这 两 层 对 应 的 是 代 
人 码 清单 4-1 中 的 下 列 代码 。 
model.add (tf.layers.conv2d(l 


{kernelSize: 3, filters: 32, activation: 'relu'})); 
model.add(tf.layers.maxPooling2d({poolSize: 2, strides: 2})); 


这 两 层 的 代码 和 前 两 层 儿 乎 一 模 一 样 (除了 此 处 的 conv2d 层 配置 的 filters 值 更 大 , 并 且 
没有 inputShape 字段 之 外 )。 这 种 重复 出 现 的 卷 积 层 加 池 化 层 组 合 在 convnet 中 非常 第 见 。 这 
种 模式 有 一 个 至 关 重 要 的 作用 : 层次 特征 提取 ( hierarchical feature extraction )。 让 我 们 用 一 个 负 
页 给 图 像 中 的 动物 分 类 的 convnet 来 说 明 这 个 概念 。convnet 靠近 输入 的 卷 积 层 中 的 过 滤 需 ( 即 通 
道 ) 会 提取 输入 图 像 中 的 低 阶 几何 特征 ， 比 如 直线 、 曲 线 和 边 角 。 在 随后 的 层 中 ， 这 些 低 阶 特征 
会 转换 成 更 复杂 的 特征 ， 比 如 猫 的 眼睛 、 描 子 和 和 耳 和 打 ( 见 图 4-6 )。 模 型 最 顶层 的 过 滤 需 会 提取 出 
一 个 整体 特征 以 判断 输入 的 图 像 是 不 是 猫 。 模 型 中 所 处 的 层 越 高 ， 特 征 的 表示 就 越 抽 象 ， 特征 也 
就 越 偏离 原本 的 像素 值 。 然 而 ， 正 是 这 些 抽 和 象 的 特征 使 convnet 能 在 分 类 任务 上 取得 很 好 的 准确 
率 ， 比 如 识别 图 片 中 的 对 象 是 不 是 一 只 猫 。 除 此 之 外 , 这 些 特征 并 不 是 手动 找 出 的 ， 而 是 通过 监 
督 式 学 习 上 自动 从 数据 中 提取 的 。 第 1 章 中 提 到 过 ， 深 度 学 习 的 本 质 就 是 逐 层 地 对 表示 进行 转换 。 
图 4-6 中 的 示例 非常 好 地 诠释 了 这 一 点 。 
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图 4-6 用 convnet 分 层次 地 提取 输入 图 像 中 的 特征 。 本 示例 使 用 一 只 猫 的 图 片 作 为 
输入 。 注 意 ， 神 经 网 络 的 输入 位 于 示意 图 的 底部 ， 输 出 位 于 示意 图 的 顶部 





4.2.4 ”局 平 化 密集 层 


输入 张 量 经 过 两 组 conv2d-maxPooling2d 的 组 合 的 处 理 后 ， 会 变 为 一 个 形状 为 [4，4，16] 
的 张 量 (HWC 格式 ， 省 略 了 批 次 维度 )。convnet 的 下 一 层 是 扁平 化 层 。 该 层 负 责 处 理 之 前 的 
conv2d-maxPooling2d 层 的 输出 ， 然 后 将 结果 输入 顺序 模型 后 续 的 层 中 。 

扁平 化 层 的 代码 很 简单 ， 因 为 它 的 实例 化 不 需要 任何 参数 。 


model.add (tf.layers.flatten()); 


刷 平 化 层 会 将 多 维 张 量 “ 打 平 ”成 一 维 张 量 ， 但 你 留 原来 的 所 有 元 素 。 在 这 个 示例 中 ,输入 
忆 平 层 的 三 维 张 量 形状 为 [3，3，32] ， 经 过 局 平 化 处 理会 受 为 一 个 形状 为 [288] (不 包含 批 次 
维度 ) 的 一 维 张 量 。 如 末 要 进行 这 样 的 局 平 化 操作 ,一 个 显而易见 的 问题 是 ,原来 的 三 维 张 量 并 
没有 内 在 的 排序 关系 , 那 又 该 如 何 排序 忆 平 化 后 的 元 系 呢 ? 答 宁 是 , 排序 会 以 元 系 在 三 维 张 量 中 
的 索引 为 依据 。 如 果 巡 个 观察 忆 平 化 后 的 一 维 张 量 原先 在 三 维 张 量 中 的 逐 引 , 会 发 现 最 后 一 个 索 
引 杰 得 最 快 ， 倒 数 第 二 个 索引 变 得 第 二 快 ， 以 此 类 推 ， 第 一 个 索引 变 得 最 慢 。 图 4-7 诠释 了 这 种 
排序 方法 。 
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图 4-7 局 平 化 层 工作 原理 示例 。 假 设 输 入 是 三 维 张 量 。 为 了 简化 问题 ， 将 每 个 维度 设 
为 较 小 的 尺寸 ， 也 束 是 2。 示 意图 中 的 方块 表示 张 量 中 的 元 系 。 元 素 的 索引 标 
注 在 方块 相应 的 表面 上 。 忆 平 化 层 会 将 三 维 张 量 转换 成 一 维 张 量 ,但 保留 原来 
的 所 有 元 素 。 一 维 张 量 的 元 素 排序 会 以 元 素 在 三 维 张 量 中 的 索引 为 依据 。 如 采 
逐个 观察 局 平 化 后 的 一 维 张 量 原先 在 三 维 张 量 中 的 索引 , 会 发 现 最 后 一 个 索引 


三 | 


变 得 最 快 ， 第 一 个 索引 变 得 最 慢 
局 平 化 层 在 convnet 中 起 到 了 什么 作用 呢 ? 它 负 责 将 输入 张 量 转换 为 适合 输入 后 续 密 集 层 的 
表示 。 正 如 第 2 蔓 和 第 3 草 中 所 介绍 的 ， 因 为 密集 层 的 工作 原理 (参见 2.1.4 市 )， 所 以 它 的 输入 
通常 是 一 维 张 量 (不 包括 批 次 维度 )。 
下 面 两 行 来 和 目 代码 清单 4-1， 它 们 会 为 convnet 添加 两 个 密集 层 。 


model.add(tf.layers.dense({units: 64, activation: 'relu'})); 









































model.add(tf.layers.dense({units: 10, activation: 'softmax'})); 


为 何 要 添加 两 个 密集 层 ， 而 不 是 一 个 呢 ? 原因 和 第 3 章 的 波士顿 房价 预测 示例 ,以 及 钓鱼 网 
站 检测 示例 中 的 相同 : 增加 使 用 非 线 性 激活 函数 的 层 可 以 增加 神经 网 络 的 容量 。 事 实 上 ， 你 可 以 
将 convnet 看 作 两 个 模型 的 级 联 。 

D 一 个 模型 由 conv2d 层 、maxPooling2d 层 和 扁平 化 层 组 成 。 它 负责 从 输入 图 像 中 提取 视觉 

特征 。 

口 一 个 由 两 个 密集 层 组 成 的 MLP。 它 负责 使 用 提取 出 的 特征 对 数字 进行 分 类 预测 。 

在 深度 学 习 中 ， 很 多 模型 采用 了 这 种 特征 提取 层 与 用 于 预测 的 MLP 搭配 的 模式 。 我 们 将 在 
这 本 书后 续 内 容 中 看 到 更 多 这 样 的 模型 示例 ， 包 括 声音 信号 分 类 和 自然 语言 处 理 。 
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4.2.5 训练 convnet 


至 此 ，convnet 的 拓扑 结构 就 定义 完毕 了 。 下 一 步 是 训练 它 ， 并 评估 训练 的 成 果 。 这 正 是 下 


面 的 代码 清单 4-2 所 做 的 。 
代码 清单 4-2 ”训练 并 评估 MNIST 数据 集 的 convnet 


const optimizer = 'rmsprop'; 
model.compilel(t 
optimizer., 
loss: 'categoricalCrossentropy', 
metrics: ['accuracy'] 


}); 


const batchSize = 320; 
Const validationSplit = 0.15; 
awalit model .fit(trainData.xs, trainData.labels, { 


batchSize, 

validationSplit, 

epochs: tralnEpochs ， 

callbacks: { 使 用 回调 函数 在 训练 
onBatchEnd: async (batch, logs) => { 中 绘制 准确 率 和 损失 


trainBatchCount++; 
ui.logStatusl( 
“mraining.,,. .(” 千 


‘Ss{(trainBatchCount / totalNumBatches * 100) .toFixed(1)}%$. 


~ complete). To stop training, refresh or close page. ); 
ui.plotLoss (trainBatchCount, logs.loss, 'train');} 
ui.plotAccuracy (trainBatchCount, logs.acc, 'train'); 


bs 
onEpochEnd: async (epoch, logs) => { 


valAcc = logs.val acc; 
ui.plotLoss (trainBatchCount, logs.val loss, 'validation'); 
ui.plotAccuracy (trainBatchCount, logs.val_ acc, 'validation');} 
} 
} 
小 7 
const testResult = model.evaluate( 使 用 模型 未 见 过 的 数 
teastnata. xe, estDhats. Tabeles): 据 评 估 它 的 准确 率 





十 


此 处 的 大 部 分 代码 是 为 了 在 训练 过 程 中 更 新 用 户 界 面 (UI)。 例 如 ， 绘 制 损失 和 准确 率 是 如 
何 改变 的 。 这 对 检测 训练 过 程 很 有 用 , 但 对 模型 训练 而 言 不 是 绝对 必要 的 。 下 面 列 出 了 对 训练 至 











关 重 要 的 部 分 。 


D trainData.xs (modqel.fit() 的 第 一 个 参数 ) 包含 来 自 MNIST 数据 集 的 输入 图 像 。 这 





些 图 像 被 表示 为 形状 为 [IN，28，28，1] 的 张 量 (NHWC 格式 )。 


DD trainData.1labels ( model “Ty 的 第 二 个 参数 ) 包含 了 输入 图 像 的 标签 。 这 些 标签 





被 表示 为 采用 one-hot 编码 的 二 维 张 量 ， 其 形状 为 [IN，10]。 
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D model .compilel() 方法 使 用 的 损失 咀 数 是 ' categoricalCrossentropy'o 它 非常 适合 
像 MNIST 这 样 的 多 分 类 问题 。 第 3 草 的 总 尾 花 分 类 问题 使 用 的 也 是 这 种 损失 肯 数 。 
D model .compile() 方 法 使 用 的 表示 函数 是 'accuracy'。 模 型 会 选取 convnet 输出 的 10 
个 元 系 中 最 大 的 元 系 作 为 预测 结果 。 该 函数 会 根据 预测 结果 ， 上 度量 样 例 分 类 正确 的 比例 。 
此 处 使 用 的 度量 指标 和 之 前 在 钓鱼 网 站 检测 模型 中 使 用 的 完全 相同 。 之 前 提 过 ， 交 叉 烂 
损失 函数 和 准确 率 上 度量 指标 最 大 的 区 别 是 交叉 入 是 可 微 的 ， 因 此 适 用 于 基于 反 癌 传播 的 
训练 。 然 而 ， 准 确 率 度量 指标 是 不 可 微 的 ， 尽 管 解 释 性 更 强 。 
D model.fit() 方 法 使 用 的 batchsize 参数 。 一 般 而 言 ， 使 用 较 大 批 次 尺寸 的 好 处 是 能 
够 产生 比 小 批 次 尺寸 更 加 一 致 、 波 动 更 小 的 梯度 ， 并 以 此 更 新 权重 。 但 是 随 看 批 次 的 太 
才 增 加 ， 训 练 所 需 的 内 存 也 会 增加 。 此 处 需要 注意 的 是 ， 如 果 训 练 集 总 量 相 同 ， 更 大 的 
批 次 尺寸 会 使 每 轮 次 的 梯度 更 新 减少 。 因 此 ， 如 有 果 选 择 使 用 更 大 的 批 次 尺寸 ， 应 该 相应 
地 增加 训练 轮 次 。 这 样 就 不 会 不 经 意 地 减少 训练 中 的 权重 更 新 。 如 你 所 抑 ， 这 里 需要 有 
所 取舍 。 上 面 的 代码 使 用 的 较 小 的 批 次 尺寸 ， 即 64。 这 是 为 了 确保 本 示例 能 够 在 不 同 的 
便 件 上 运行 。 就 和 其 他 参数 一 样 ， 可 以 通过 修改 源 代码 ， 然 后 刷新 页 面 ， 去 试验 不 同 批 
次 矿 才 对 训练 的 影 啊 。 
口 model .fit() 方 法 使 用 的 validationSplit 参数 。 这 会 让 训练 过 程 预 留 trainData .xs 
和 trainData.1labels 最 后 15% 的 数据 作为 验证 集 。 就 和 之 前 的 非 图 像 处 理 模型 一 样 ， 
监督 训练 过 程 中 在 验证 集 上 的 损失 和 准确 率 是 很 重要 的 。 它 是 判断 模型 是 否 过 拟 合 的 依 
据 。 什 么 是 过 拟 合 ” 简 而 言 之 ， 它 是 一 种 训练 的 状态 ， 在 该 状态 下 ， 模 型 过 度 学 习 训 练 
中 数据 的 细节 ， 以 至 于 损害 了 它 在 未 见 过 的 数据 上 的 准确 雍 。 这 是 监督 式 学 习 中 一 个 至 
关 重 要 的 概念 。 在 这 本 书 的 第 8 草 ， 我 们 将 用 整 草 的 篇 幅 讲解 如 何 识 别 和 应 对 过 拟 合 。 
model .fit() 是 一 个 异步 函数 。 因 此 ， 如 果 后 续 的 操作 需要 等 到 fit () 调 用 完成 后 进行 ， 
则 需要 在 其 之 前 加 上 await。 上 面 的 代码 正 是 这 么 做 的 。 这 是 因为 在 训练 完成 后 , 我 们 在 测试 集 
上 评估 模型 的 性 能 。 评 倍 使 用 的 是 model .evaluate() 方 法 , 它 是 同步 的 model .evaluate() 
使 用 的 测试 数据 是 testData。 它 和 之 前 提 到 的 trainData 格式 相同 ,但 是 包含 的 样 例 数量 更 
少 , 模型 在 使 用 fit () 进行 训练 时 , 并 未 见 过 这 些 数 据 。 这 样 就 确保 了 评估 结 采 是 完全 基于 测试 
集 的 ， 而 不 受训 练 集 影响 。 它 是 对 模型 性 能 的 客观 评估 。 
使 用 上 面 的 代码 训练 模型 10 个 轮 次 〈 训 练 轮 次 可 以 在 Web 应 用 程序 的 输入 框 中 设置 )。 训 
练 过 程 中 的 损失 曲线 和 准确 认 曲 线 如 图 4-8 所 示 。 可 以 看 出 ,损失 和 准确 率 在 训练 的 末尾 都 收 化 
了 。 验 证 集 上 的 损失 与 准确 座 和 训练 集 上 损失 与 准确 卒 相差 不 大 , 说 明 并 没有 产生 明显 的 过 拟 合 
现象 。 最 后 的 modqel.evaluate () 调 用 的 结 采 表明 最 终 的 测试 准确 率 为 99.0% ( 每 次 训练 得 到 
的 实际 值 都 会 有 所 不 同 ， 这 是 训练 中 权重 的 随机 初始 化 和 隐 仿 的 对 样 例 的 随机 排序 造成 的 )。 
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图 4-8 ”MNIST 数据 集 的 convnet 的 训练 曲线 。 共 进行 10 个 训练 轮 次 ， 每 轮 次 包括 约 
800 个 批 次 。 左 侧 : 损失 曲线 。 右 侧 : 准确 率 曲 线 。 训 练 集 和 验证 集 的 对 应 结 
条 用 不 同 的 颜色 、 线 宽 和 图例 标 出 。 验 证 曲线 比 训练 曲线 包含 的 数据 点 要 少 ， 
为 和 训练 批 次 不 同 ， 只 有 在 每 个 轮 次 末尾 才 会 进行 验证 


99.0% 的 准确 率 有 多 好 呢 ?” 从 实用 的 角度 而 言 ， 这 是 可 接受 的 ,但 绝 不 是 顶尖 水 平 。 如 有 果 使 
用 更 多 的 卷 积 层 ， 实 现 99.5% 的 准确 率 是 可 能 的 。 这 意味 看 需要 给 模型 加 入 更 多 的 卷 积 层 、 池 化 
层 和 过 滤 需 。 但 是 ， 在 浏 览 硕 中 训练 这 类 更 大 的 convnet 需要 久 得 多 的 时 间 。 因 此 ， 有 必要 在 像 
Node.js 这 样 可 以 利用 更 多 计算 资源 的 环境 中 训练 。4.3 市 会 讲解 这 是 如 何 做 到 的 。 

理论 上 说 ，MNIST 手写 数字 分 类 问题 是 一 个 共 10 个 类 别 的 多 分 类 问题 。 因 此 ， 通 过 纯粹 的 
随机 猜测 ， 碰 巧 猜 中 的 准确 率 (chance-level accuracy ) 是 10%， 而 我 们 的 结果 99.0% 要 比 这 好 得 
多 。 当 然 ， 碰 巧 猜 中 的 准确 率 并 不 是 一 个 高 标准 。 该 如 何 展示 conv2d 层 和 maxPooling2d 层 中 的 
数值 呢 ? 如 果 仍 然 使 用 之 前 学 过 的 纯 密 集 层 架构 ， 也 能 达到 这 样 的 准确 率 吗 ? 

让 我 们 用 一 个 实验 来 回答 这 些 问题 ( 见 代 码 清单 4-3 )。index.js 中 的 代码 还 包含 男 一 个 创建 
模型 的 疯 数 createDenseModel ()。 和 代码 清单 4-1 中 的 createConvModel () 图 数 有 所 不 同 ， 
createDenseModel() 创 建 的 是 一 个 仅 由 扁平 化 层 和 密集 层 组 成 的 顺序 模型 ， 即 没有 使 用 本 章 
介绍 的 新 层 类 型 ucreateDpenseModel () 还 确保 它 使 用 的 参数 总 数 和 convnet 创 建 的 大 致 相等 ( 约 
为 33 000 )。 这 是 为 了 确保 两 种 模型 之 间 的 比较 是 公平 的 。 


代码 清单 4-3 ” 仅 使 用 扁平 化 层 和 密集 层 的 MNIST 手写 数字 分 类 模型 ， 用 于 和 convnet 比较 














function createDenseModel() { 
Const model = tf.sequential(); 
model.add (tf.layers.flatten({inputShape: [IMAGE H, IMAGE W, 1]})); 
model.add(tf.layers.dense({units: 42, activation: 'relu'})); 
model.add(tf.layers.dense({units: 10, activation: 'softmax'}));} 


model .summary () ; 
return model; 


} 


代码 清单 4-3 中 定义 的 模型 的 拓扑 结构 报告 如 下 。 
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Layer (type) Output shape Param # 
flatten Flattenl (Flatten) [null, 784] 0 
dense_Densel (Dense,) [null, 42|] 32970 
dense_Densel (Dense,) [null, 10] 430 




















Total params: 33400 
Trainable params: 33400 
Non-trainable params: 0 





在 相同 的 训练 配置 下 , 非 卷 积 模型 获得 了 如 图 4-9 所 示 的 结果 。10 个 训练 轮 次 后 得 到 的 最 终 
评估 的 准确 率 约 为 97.0%。 两 种 模型 的 准确 率 差 2%。 这 虽然 看 起 来 很 小 ， 但 是 从 误差 座 的 角度 
而 言 ， 非 卷 积 模型 的 误差 率 是 convnet 的 3 信 。 作 为 实战 练习 ， 演 试 增加 非 卷 积 模型 的 尺寸 。 这 
可 以 通过 增加 createDenseModel () 中 定义 的 隐藏 的 密集 层 ( 即 第 一 个 密集 层 ) 的 units 参数 
做 到 。 你 会 发 现 ， 即 使 模型 的 尺寸 增加 了 ， 仍 无 法 使 非 卷 积 模型 达到 和 convnet 相当 的 水 平 。 这 
证 实 了 convnet 的 威力 : 通过 共享 参数 和 利用 视觉 特征 的 局 部 性 ， 相 较 非 卷 积 神 经 网 络 而 言 ， 
convnet 可 以 用 相同 或 更 少 的 参数 数量 在 计算 机 视觉 任务 上 达到 更 好 的 准确 率 。 
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图 4-9 MNIST 数据 集 的 非 卷 积 模型 的 训练 曲线 ， 使 用 和 图 4-8 相同 的 展示 方式 。 
该 非 卷 积 模 型 由 代码 清单 4-3 定义 的 createDenseModel () 函数 创建 





4.2.6 ”用 convnet 做 预测 


有 了 训练 好 的 模型 后 ， 该 如 何 使 用 它 进行 手写 数字 分 类 呢 ? 首先 应 该 准备 好 图 像 数据 。 
TensorFlow.js 的 模型 数据 获取 有 很 多 方法 。 下 面 列 出 了 这 些 方法 及 其 适用 场景 。 








1. 用 TypedArray 创建 图 像 张 量 
很 多 场景 中 ， 需 要 的 图 像 数据 已 经 存储 在 JavaScript 的 TypedArray 对 象 中 。 切 S-example 
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代码 仓库 中 的 mnist 示例 使 用 的 正 是 这 种 方法 。data.js 包含 了 实现 细节 ， 此 处 不 再 歼 述 。 假 设 有 
一 个 名 为 imageDataArray 的 Float32Array 对 象 ， 它 存储 了 一 定数 量 的 MNIST 数据 。 那 么 
可 以 使 用 下 面 的 代码 将 它 转换 成 一 个 形状 和 模型 输入 匹配 的 四 维 张 量 "。 


let x = tf.tensor4d(imageDataArray, [1, 28, 28, 1]); 


tf.tensor4d() 调 用 中 的 第 二 个 参数 指定 了 要 创建 的 张 量 的 形状 。 这 是 有 必要 的 ， 因 为 
Float32Array (或 者 说 所 有 的 TypedArray ) 对 象 的 数据 结构 都 是 忆 平 的 ， 它们 并 不 包含 任何 
有 关 图 像 维度 的 信息 。 张 量 的 第 一 个 维度 的 尺寸 是 1, 这 是 因为 此 处 处 理 的 是 imageDataArray 
中 的 一 个 图 像 。 就 和 之 前 的 示例 一 样 ， 模 型 的 训练 、 评 估 和 推断 所 需 的 输入 都 有 一 个 批 次 维度 。 
无 论 输 入 的 是 一 个 图 像 还 是 多 个 图 像 都 是 如 此 。 如 果 该 Float32Array 对 象 包含 一 个 由 多 个 图 
像 组 成 的 批 次 ， 那 么 它 也 能 被 转换 为 单个 张 量 。 该 张 量 的 第 一 个 维度 等 于 批 次 包含 的 图 像 数 量 。 


let x = tf.tensor4d(imageDataArray, [numlimages, 28, 28, 1]); 














2. tf .browser.fromPixels: 从 ijmg、canvas 或 videoHTML 元 素 获 取 图 像 张 量 

第 二 种 在 浏览 硕 中 获取 图 像 张 量 的 方法 是 使 用 TensorFlow.js 提供 的 tf.browser.frompPpixels() 
函数 。 该 函数 能 从 以 下 包含 图 像 数 据 的 HTML 元 素 中 获取 图 像 张 量 : img、canvas 和 video。 

举 个 例子 ， 假 设 某 个 网 页 包含 以 下 img 元 系 。 


<img id="my-image" Src="foo.]jpg"></ Img> 


那么 可 以 使 用 下 面 的 这 行 代 码 获取 img 元 系 显 示 的 图 像 数据 。 


let x = tf.browser.fromPpixels!l 











document .getElementBylId('my-image')) .asType('float32'); 


由 此 会 得 到 一 个 形状 为 [height，wiath，3] 的 张 量 。 其 中 第 三 个 维度 的 三 个 通过 对 应 RGB 
编码 的 三 个 颜色 通道 。 该 行 末 尾 的 asType() 调用 是 必要 的 ， 这 是 因为 tf.browser. 
fromPixels() 返 回 的 是 int32 类 型 的 张 量 ， 但 convnet 需要 的 输入 是 float32 类 型 的 张 量 。 
张 量 的 高 与 宽 两 个 维度 的 太 寸 由 img 元 素 的 尺寸 决定 。 如 来 img 元 素 的 原始 高 度 和 宽度 与 醒 型 
要 求 的 形状 不 匹配 ， 有 两 种 处 理 方法 。 一 种 方法 是 可 以 改变 img 元 素 的 局 与 宽 属 性 (如 朱 这 样 
不 会 破坏 UI 的 美观 的 话 )。 画 一 种 方法 是 可 以 改变 tf .browser .fromPixels() 返 回 的 张 量 的 
尺寸 。 这 可 以 通过 TensorFlow.js 提供 的 两 个 图 像 尺 寸 调整 方法 之 一 做 到 : tf.image. 


resizeBilinear() 或 tf.image.resizeNearestNeigbor()。 























x = tf.image.resizeBilinear (x, [newHeight, newWidth]|).; 





tf.image.resizeBilinear() 和 tf.image.resizeNearestNeighbor() 的 语法 相同 ， 
但 它们 调整 图 像 尺 寸 使 用 的 是 两 种 不 同 的 算法 。 前 者 使 用 双 线 性 插值 (bilinear interpolation ) 来 
获取 新 张 量 中 的 像素 值 ; 后 者 使 用 的 是 最 近邻 插值 (nearest-neighbor interpolation )。 后 者 需要 的 














Q 如 果 想 更 全 面 地 了 解 如 何 用 TensorFlow.js 的 低 阶 API 创建 张 量 ， 请 参见 附录 B。 
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计算 量 通常 比 前 者 要 小 。 
需要 注意 的 是 ， tt, browaer, fromPixelsl() 创建 的 张 量 并 不 包含 批 次 维度 。 因此 ， 将 张 量 
输入 TensorFlow.js 模型 之 前 ， 必 须 先 扩展 它 的 维度 ， 就 像 下 面 这 样 。 


xX = xXx.expandDims () ; 


expandDims () 通常 需 要 一 个 表示 维度 的 参数 。 但 上 面 的 例子 可 以 省 略 这 一 参数 ， 这 是 因为 
没有 明确 配置 该 参数 时 ， 其 值 会 默认 为 第 一 个 维度 。 

tf.browser.frompixels() 会 以 和 1mg 元 系 相 似 的 方式 处 理 Canvas 元 隶 和 和 Video 元 素 。 
需要 使 用 tf.browser. fromPixels1() 处 理 canvas 元 素 的 通常 是 一 些 涉 及 通过 用 户 交 互 在 
canvas 中 生成 原始 图 像 的 场景 。 交 互 完成 后 ， 这 些 图 像 才 会 被 输入 TensorFlow.js 模型 。 在 线 手 
写 笔迹 识别 应 用 程序 或 在 线 手绘 图 案 识 别 应 用 程序 束 是 这 方面 的 例子 。 除了 获取 前 态 图 像 外 ,还 
有 些 场 景 涉及 从 video 元 素 获取 图 像 数 据 ， 比 如 从 网 络 摄像 头 的 视频 中 一 帧 一 帧 地 获取 图 像 数 
据 。 这 正 是 Nikhil Thorat 和 Daniel Smilkov 在 TensorFlow.js 最 初 的 发 布 会 上 演示 的 《 吃 豆 人 》 游 
戏 背后 使 用 的 技术 。 其 他 很 多 使 用 TensorFlow.js 从 网 络 摄像 头 获取 图 像 数据 的 Web 应 用 ， 包 括 
PoseNet 演示 程序 "， 也 使 用 了 这 种 方法 。 可 以 从 这 个 GitHub 链接 获取 《 吃 豆 人 》 演 示 程 序 的 源 
代码 : https://github.com/tensorflow/tfjs-examples/tree/master/webcam-transfer-learning。 

就 像 在 前 儿 章 中 见 到 的 , 有 一 点 要 特别 注意 : 尽量 避免 训练 用 的 数据 和 推 新 用 的 数据 之 间 产 
生 偏 人 妊 (skew )， 即 不 匹配 。 本 示例 中 ，MNIST 数据 集 的 convnet 训练 时 使 用 的 是 标准 化 到 0~ 1 
范围 内 的 图 像 张 量 。 因 此 , 如 果 x 张 量 中 的 数据 使 用 的 范围 不 同 , 比如 0~ 255 (这 在 基于 HTML 
的 图 像 数 据 中 非常 第 见 )， 那 就 必须 先 将 它 标准 化 。 


X=X.qlv(255) ; 
准备 好 推断 用 的 数据 后 ， 就 可 以 调用 modqel .predict() 获 取 预 测 结果 ,参见 代码 清 单 4-4。 
代码 清单 4-4 用 训练 好 的 convnet 进行 推 呆 
































const testExamples = 100; 
const examples = data.getTestData (testExamples); 
使 用 tf .tidy() 避 免 
tf, Eidy((Y Ss 4 WebGl 内 存 泄漏 
Const output = model.predict (examples .xs);} 
const axis = 1; 
const labels = Array.from(examples.labels.argMax (axis) .dataSync ()); 
const predictions = Array .from(l( 


output.argMax (axis) .dataSync()); 
调用 argMax() 获 取 
ui.showTestResults (examples, predictions, labels); 概率 最 大 的 类 别 
}); 


上 面 的 代码 假设 推 新 用 的 图 像 批 次 已 经 存储 于 一 个 名 为 examples .xs 的 张 量 中 。 该 张 量 的 


GD 参见 Dan Oved 在 Medium 网 站 上 发 表 的 文章 “Real-time Human Pose Estimation in the Browser with TensorFlow.js”。 
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形状 为 [100，28，28，1] (包括 批 次 维度 )。 其 中 第 本 100， 这 表明 有 es 
的 图 像 。model .predict () 会 返回 一 个 形状 为 [100，10] 的 二 维 张 量 作为 输出 。 输 出 的 第 

维度 对 应 不 同 的 样 例 ， 第 二 个 维度 对 应 10 ey 输出 张 量 的 每 ee 
的 图 像 输入 ， 模 型 对 10 个 可 能 的 数字 分 配 的 概率 值 。 为 了 得 到 模型 的 预测 ， 需 要 找 出 每 个 网 像 
样 例 10 个 概率 值 中 最 大 概率 值 的 索引 。 这 正 是 下 面 儿 行 代码 所 实现 的 。 


const axis = 1; 














const labels = Array.from(examples.labels.argMax (axis) .dataSync());} 


argMax() 图 数 会 返回 一 个 给 定 轴 上 所 有 最 大 值 的 索引 。 此 处 选取 的 轴 是 const axis = 1 
指定 的 第 二 个 维度 。argMax() 的 返回 值 是 一 个 形状 为 [100，11 的 张 量 。 通过 调用 aataSsync ( ) ， 
将 形状 为 [100，1] 的 张 量 转换 为 一 个 长 度 为 100 的 Float32Array 对 象 ,随后 , Array .from() 
将 ee 转换 成 一 个 普通 的 JavaScript 数组 。 该 数组 包含 100 个 整数 ， 每 个 整数 的 取信 
汇 围 是 0 ~ 9。 这 个 数组 束 是 预测 结 采 ， 它 的 含义 非常 简单 : 数组 中 的 每 个 元 素 就 是 模型 对 其 对 
We MNIST 数据 集中 ， 目 标 标签 和 输出 的 索引 是 完全 匹配 的 。 因 此 ， 不 
必 将 数组 中 的 元 素 转换 成 字符 串 标 签 。 预 测 数组 会 作为 参数 输入 到 下 一 行 。 下 一 行 会 调用 一 个 
UI 也 数 ， 该 函数 会 演 染 出 分 类 结果 和 其 对 应 的 测试 图 像 ( 见 图 4-10 )。 


图 4-10 ”训练 好 的 模型 对 儿 个 输入 样 例 的 预测 结果 ， 以 及 与 训练 结果 对 应 的 MNIST 测试 图 像 




















4.3 告别 浏览 器 : 用 Node.js 更 快 地 训练 模型 


上 一 节 ， 我 们 在 浏览 硕 中 训练 了 一 个 convnet， 训 练 好 的 模型 达到 了 99.0% 的 准确 率 。 本 证 
将 创建 一 个 更 强大 的 convnet， 它 可 以 进一步 将 测试 准确 率 提 升 到 99.5%。 然 而 ， 更 高 的 准确 率 
是 有 代价 的 ， 因 为 模型 的 训练 和 推断 会 消耗 更 多 的 内 存 和 算 力 。 这 一 点 在 训练 时 尤其 明显 ， 因 为 
训练 所 使 用 的 反问 传播 要 比 推断 使 用 的 正 回 传播 消耗 更 多 算 力 。 训 练 更 大 的 convnet， 对 绝 大 部 
分 现代 浏览 虽 环 境 而 言 ， 负 和合 过 大 且 训 练 速 度 过 慢 。 


4.3.1 ”安装 使 用 tis-node 所 需 的 依赖 和 模块 


现在 是 Node.js 版 TensorFlow.js 办 党 登场 的 时 候 了 ! 它 可 以 在 后 端 环 境 中 运行 ， 完 全 没有 像 
浏览 器 标签 页 那样 的 资源 限制 。Node.js 版 TensorFlow.js (下 文 简称 为 切 s-node ) 在 CPU 模式 下 
会 直接 使 用 C++ 编写 的 多 线程 数学 运算 方法 ， 这 些 运算 方法 和 主打 的 Python 版 TensorFlow 所 使 
用 的 是 相同 的 。 如 果 你 的 计算 机 安装 了 一 个 启用 CUDA 的 GPU，tfjs-node 还 可 以 使 用 CUDA 编 
写 的 、GPU 加 速 的 核子 数 进行 数学 运算 ， 从 而 进一步 提升 运算 速度 。 
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使 用 tfjs-node 改进 过 的 加 强 版 convnet 模型 位 于 tfjs-examples 代码 仓库 中 的 mnist-node 文件 
夹 下 。 就 如 之 前 的 示例 一 样 ， 你 可 以 用 下 面 的 命令 获取 源 代 码 。 


git clone https://github.com/tensorflow/tfjs-examples .git 
cd tfjs-examples/mnist-node 


和 之 前 在 Web 浏览 硕 中 运行 的 示例 不 同 , 这 个 示例 会 在 终端 中 运行 。 使 用 yarn 命令 下 载 本 
示例 的 依赖 。 

查看 package.json 文件 ， 你 会 看 到 名 为 Gbtensorflow/tfjs-node 依赖 。 将 @tensorflow/ 
tfjs-node 声明 为 依赖 后 ，yarn 会 自动 下 载 与 Python 版 TensorFlow 共用 的 C++ 库 (在 Linux、 
Mac、Windows 系统 上 分 别名 为 libtensorflow.so 、libtensorflw.dylib、libtensorflow.dll )。 下 载 好 的 
文件 会 存 于 node modules 文件 夹 中 ， 供 TensorFlow.js 使 用 。 

当 yarn 命令 运行 完毕 后 ， 就 可 以 开始 模型 的 训练 。 


node malPn.]Ss 


既然 系统 已 经 安装 了 yarn， 此 处 假设 也 已 安装 了 node， 并 已 将 其 添加 到 搜索 路 径 〈 如果 需 
要 更 多 相关 信息 ， 请 参见 附录 A )。 

上 上述 的 是 用 CPU 训练 加 强 版 convnet 的 流程 。 如 果 你 的 工作 站 或 笔记 本 计算 机 内 置 了 启用 
CUDA 的 GPU， 那 么 就 可 以 用 GPU 进行 模型 训练 。 具 体 步骤 如 下 。 

(1) 为 GPU 安 污 正 确 版 本 的 NVIDIA 驱动 程序。 

(2) 安装 NVIDIA 的 CUDA 工具 包 。 该 库 可 以 利用 NVIDIA 的 GPU 进行 通用 并 行 计算 。 

(3) 安 沪 CuDNN。 该 库 包 含 了 基于 CUDA 的 高 性 能 次 上 度 学 习 算 法 实现 。( 关于 步 桑 (1) ~ (3) 
的 更 多 细 方 ， 参 见 附录 A。 ) 

(4) 在 package.json 中 ,将 @tensorflow/tfjs-node 依赖 替换 为 &btensor-flow/tfjs- 
node-gpu， 但 保留 原 依 赖 的 版 本 号 ， 因 为 它们 的 版 本 发 布 是 同步 的 。 

(5) 再 次 运行 yarn, 下 载 与 Python 版 TensorFlow 共用 的 包含 CUDA 数学 运算 的 库 ， 供 
TensorFlow.js 使 用 。 

(6) 在 main.js 中 ， 将 导入 依赖 的 代码 


require('@tensorflow/tfjs-node'); 


蔡 换 为 


require('@tensorflow/tfjs-node-gpu'); 

(7) 再 次 启动 训练 流程 : 

node main.Js 

如 果 你 正确 地 完成 了 上 述 步 又， 模型 就 会 飞速 地 在 启用 了 CUDA 的 GPU 上 进行 训练 ， 训 练 
速度 通常 是 CPU 版 声 s-node 的 5 倍 。 无 论 是 使 用 CPU 还 是 GPU 训练 ， 速 度 都 比 同一 模型 在 浏 
览 需 中 的 训练 速度 快 得 多 。 
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1. 在 切 s-node 中 训练 MNIST 数据 集 的 加 强 版 convnet 

经 过 20 个 轮 次 的 训练 后 ， 模 型 会 显示 出 约 为 99.6% 的 最 终 测 试 (或 者 说 评 佑 ) 准确 率 ， 打 
败 了 我 们 之 前 在 4.2 和 中 得 到 的 99.0% 准 确 率 。 那 么 ， 是 区 S-node 厂 模 型 和 浏览 硕 版 模型 之 间 的 
哪些 区 别 造成 了 准确 率 的 提升 呢 ? 毕竟 ， 如 采 使 用 相同 的 模型 及 相同 的 训练 集 ， 只 不 过 一 个 是 
tfjs-node 版 TensorFlow.js, 另 一 个 是 浏览 厚 版 TensorFlow.js, 那么 肯定 会 得 到 相同 的 训练 结果 ( 随 
机 权重 初始 化 的 造成 的 区 别 除外 )。 要 回答 这 一 问题 ， 先 看 看 切 S-node 版 模型 是 如 何 定 义 的 ( 见 
代码 清单 4-5 )。 该 模型 的 定义 位 于 modeljs 文件 中 ，main.js 文件 随后 导入 了 该 模型 。 

















代码 清单 4-5 ”定义 MNIST 数据 集 的 加 强 版 convnet 
const model = tf.sequential (); 
model.add (tf.layers.conv2d(t 
inputShape: [28, 28, 1],， 
filters: 32, 
kernelSize: 3, 
activation: 'relu', 
})); 
model.add (tf.layers.conv2dl(t 
filters: 32, 
kernelSize: 3, 
activation: 'relu', 
})); 
model.add (tf.layers.maxPooling2d({poolSize: [2, 2]})); 
model.add (tf.layers.conv2d(t 
filters: 64, 
kernelSize: 3, 
activation: 'relu', 
})); 
model.add (tf.layers.conv2d(t 
filters: 64, 
kernelSize: 3, 














activation: 'relu', 
})); 
model.add (tf.layers.maxPooling2d({poolSize: [2, 2]})); 
model addltf. laverg. flattent)y) 添加 dropout 层 
model.add (tf.layers.dropout ({rate: 0.25})); ,| 来 缓解 过 拟 合 
model.add(tf.layers.dense({units: 512, activation: 'relu'})); 
model.add(tf.layers.dropout ({rate: 0.5})); 
model.add(tf.layers.dense({units: 10, activation: 'softmax'})); 
model .summary (); 
model.compilel(t 





optimizer: 'rmsprop', 
loss: 'categoricalCrossentropy', 
metrics: ['accuracy'l], 


}); 


模型 拓扑 结构 的 报告 如 下 。 


Layer (type,) Output shape Param 并 


CONV2d Conv2D1 (Conv2D) [null,26,26,32] 320 
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CONV2d_Conv2D2 (Conv2D) [null,24,24,32] 9248 
max_ pooling2d MaxPooling2D1 [null,12,12,32] 0 
CONnVv2d_Conv2D3 (Conv2D) [null,10,10,64| 18496 
CONV2d Conv2D4 (Conv2D) [null,8,8,64|] 36928 
max_ pooling2d MaxPooling2D2 [null,4,4,64] 0 
flatten Flattenl1 (Flatten) [null,1024|] 0 
dropout Dropoutl1 (Dropout) [null,1024] 0 
dense_Densel (Dense,) [Fri ;B21 524800 
dropout_ Dropout2 (Dropout) [null,512] 0 
dense_Dense2?2 (Dense,) [LO 5130 








Total params: 594922 
Trainable params: 594922 
Non-trainable params: 0 











下 面 列 出 了 鼠 s-node 版 模型 和 浏览 各 版 模型 的 关键 区 别 。 
口 tfjs-node 版 模型 有 4 个 conv2d4 层 ， 比 浏览 硕 版 模型 多 一 个 。 
口 夫 s-node 版 模型 中 的 隐藏 密集 层 拥 有 更 多 单元 (512 个 )， 比 浏览 硕 版 模型 的 单元 (100 个 ) 


多 。 


口 总 体 而 言 ， 苞 S-node 版 模型 的 权重 参数 是 浏览 锅 版 模型 的 18 倍 。 

口 tfjs-node 版 模型 在 扁平 化 层 和 密集 层 之 间 有 两 个 dropoutz 层 。 

上 述 区 别 的 前 三 个 会 赋予 tfjs-node 版 模型 比 浏览 大 版 模型 更 大 的 容量 。 也 正 是 这 些 区 别 让 
tfjs-node 版 模型 消耗 了 过 多 的 内 存 和 算 力 ， 以 至 于 不 能 在 浏览 器 中 以 可 接受 的 速度 训练 。 正 如 我 
们 在 第 3 曹 所 学 的 , 更 大 的 模型 容量 意味 者 更 大 的 过 拟 合 风险 。 这 正 是 第 四 个 区 别 ( 添加 dropout 
层 ) 的 作用 ， 它 能 够 组 解 模型 的 过 拟 合 。 


2. 用 dropout 层 减 少 过 拟 合 
dropout 层 是 我 们 在 本 章 遇 到 的 一 种 新 的 TensorFlow.js 层 类 型 。 它 是 深度 神经 网 络 中 绥 解 过 
拟 合 最 有 将、 使 用 最 广泛 的 方法 之 一 。 下 面 简 述 了 它 的 工作 原理 。 
口 在 训练 阶段 (Mogdel .fit () 调 用 期 间 )， 它 会 随机 将 输入 张 量 中 的 一 部 分 元 系 设 为 0 (或 
者 说 “丢弃 ”)， 然 后 输出 由 此 得 到 的 张 量 作为 结果 。 对 本 示例 而 言 ，dropout 层 仅 有 一 个 
配置 参数 : 丢弃 率 ( dropoutrate )。 丢 弃 率 对 应 于 代码 清单 4-5 中 aropout 层 配 置 对 象 中 
的 rate 属性 。 举 个 例子 ,假设 dropout 层 的 丢弃 率 为 0.25， 输 入 张 量 是 一 个 值 为 [0 .7， 

















(DD dropout 作为 绥 解 过 拟 合 的 方法 ,通常 译作 丢弃 法 。 但 用 于 形容 层 的 类 型 时 ,通常 直接 使 用 其 瑞 文 形式 。 一 一 译 者 注 


4.3 告别 浏览 器 : 用 Node.js 更 快 地 训练 模型 121 





-0.3，0.8，-0.4] 的 一 维 张 量 。 那 么 输出 张 量 吏 可 能 是 [0.7，-0.3，0.0，0.4]， 
也 就 是 说 输入 张 量 2$% 的 元 素 被 随机 设 为 0。 反 回 传播 过 程 中 ， 梯 度 张 量 经 过 dropout 层 
也 会 受到 类 似 的 影响 ， 即 一 部 分 元 素 被 随机 变 为 0。 

口 在 推 盯 阶段 (也 就 是 Model .predict() 调 用 和 Model .evaluate() 期 间 )，dropout 层 
并 不 会 随机 将 输入 张 量 中 的 元 际 变 为 0。 与 此 相反 ， 输 入 仅仅 是 这 无 变化 地 穿 过 dropout 
层 变 为 输出 。 也 就 是 说 ， 这 是 一 种 恒 等 映 射 (identity mapping )。 

图 4-11 展示 了 一 个 二 维 输入 张 量 在 训练 阶段 和 推断 阶段 经 过 dropout 层 时 , 分 别 会 发 生 什么 


变化 。 











推断 阶段 





图 4-11 dropout 层 工作 原理 示例 。 在 本 示例 中 ,输入 张 量 是 一 个 形状 为 [4,，2]1 的 二 维 
张 量 。dropout 层 的 丢弃 率 为 0.25。 也 就 是 说 ， 在 训练 阶段 ， 输 入 张 量 中 25% 
的 元 素 ( 即 8 个 元 系 中 的 2 个 ) 会 被 随机 选中 并 设置 为 0。 在 推 新 阶段 ， 输 入 
张 量 仅 穿 过 dropout 层 而 不 发 生 任 何 变化 


一 个 如 此 简单 的 算法 居然 是 对 抗 过 拟 合 最 有 效 的 方法 之 一 。 为 何 它 会 这 么 有 效 呢 ? 据 
Geoffrey Hinton，dropout 算法 的 发 明 者 ( 也 是 神经 网 络 领域 很 多 技巧 的 发 明 者 ) 说 ，droponut 算 
法 的 灵感 来 自 银 行使 用 的 一 种 防止 员工 欺诈 的 机 制 。 他 的 原 话 如 下 。 


我 每 次 去 银行 ,接待 我 的 柜员 都 不 同 。 我 向 其 中 一 个 柜员 询问 这 么 做 的 原因 。 他 说 
他 也 不 知道 ,但 是 银行 确实 经 常 调整 他 们 的 岗位 ,我 猜想 这 肯定 是 银行 采取 的 一 种 措施 ， 
为 了 防止 员工 之 间 相 互 勾结 ， 共 同 欺 诈 银 行 。 这 使 我 意识 到 ， 如 果 对 每 个 样 例 随机 地 移 
除 神经 元 中 的 不 同 子 集 ， 就 能 避免 神经 元 之 间 相 互 匀 结 ， 从 而 减少 过 拟 合 。 


如 琳 用 诬 度 学 习 的 语言 来 转述 这 人 句 话 束 是 ， 给 神经 层 的 输出 值 加 入 一 定 噪 声 ( noise )， 能 打 
乱 因 巧合 形成 的 模式 。 这 些 巧合 形成 的 模式 ( 即 Hinton 所 说 的 “相互 勾结 ”) 如 果 存 在 的 话 ， 会 
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影响 模型 找到 数据 中 真正 的 模式 。 在 本 草 末 尾 的 第 三 个 练习 中 ， 你 将 有 机 会 试验 从 坪 s-node 版 
convnet (modeljs 中 ) 移 除 两 个 dropout 层 ， 再 次 训练 模型 ， 然 后 观察 模型 在 训练 阶段 、 验 证 阶 
段 、 评 佑 阶段 的 准确 率 会 相应 地 发 生 什 么 变化 。 

代码 清单 4-6 展示 了 训练 和 评估 加 强 版 模型 的 关键 代码 。 如 条 将 此 处 的 代码 和 代码 清单 4-2 
中 的 相 比 较 , 你 一 定 会 发 现 它们 的 相似 性 , 并 为 此 感到 欣喜 。 两 个 版 本 的 代码 都 用 Model .fit 1() 
方法 和 Model .evaluate() 方 法 驱动 训练 和 评 舍 ， 它 们 的 语法 和 风格 是 完全 一 致 的 。 唯 一 的 区 
别 是 ， 前 者 的 损失 、 准 确 率 和 训练 进度 是 通过 终端 展示 的 ， 而 后 者 则 使 用 的 是 浏览 融 。 

这 展示 了 TensorFlow.js 的 一 个 重要 特性 : 它 是 一 个 模 跨 前 闹 和 后 问 的 JavaScript 座 度 学 习 


框 染 。 





N 


从 创建 和 训练 模型 的 角度 而 言 ， 浏 览 器 端 和 Node.js 端的 TensorFlow.js 代码 是 完全 
一 致 的 O 


代码 清单 4-6 ”用 夫 s-node 训练 并 评估 加 强 版 convnet 


awalt model.fit(trainImages, trainLabels, { 


epochs, 
batchSize, 
validationSplit 
Rk 
const {images: testImages, labels: testLabels} = data.getTestData(); 
Const evalOutput = model.evaluate 使 用 模型 未 见 过 的 
testlimages, testLabels),; RE , 
数据 评估 模型 


console.log('\nEvaluation result:'); 


Console.1ogl( 
Loss = S(evaloutput [0] .dataSync() [0] .toFixed(3)}; + 


‘Accuracy Ss{evalOutput[1] .dataSync() [0] .toFixed(3)}.  ); 


4.3.2 在 浏览 器 中 加 载 Node.js 中 保存 的 模型 


训练 模型 是 费时 费力 的 事情 , 它 既 会 耗费 CPU 和 GPU 的 算 力 , 也 会 耗费 一 定 的 时 间 。 因 此， 
训练 成 功 后 应 该 保存 训练 的 成 采 。 如 采 不 保存 模型 ， 下 次 运行 main.js 时 ， 就 得 从 头 开 始 训练 模 
型 。 本 市 会 展示 如 何在 训练 完成 后 保存 模型 ， 并 将 保存 好 的 模型 作为 文件 导出 到 人 硬盘 上 。 导 出 的 
模型 文件 叫 作 检查 点 ( checkpoint ) 或 制品 (artifact )。 之 后 我 们 还 会 展示 如 何在 浏览 大 中 导入 检 
查 点 ， 重 组 模型 ， 然 后 将 其 用 于 推 上 新。main.js 中 main() 函数 的 最 后 部 分 包含 下 面 的 模型 保存 代 
码 ( 见 代 码 清单 4-7 )。 


代码 清单 4-7 将 tfjs-node 中 训练 好 的 模型 保存 到 文件 系统 
if (modelSavePath != null) { 
await model.save( file://s{modelSavePath} ) : 
console.log( Saved model to path: S$S{modelSavePath} ) ， 


} 
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model 对 象 的 save () 方 法 用 于 将 模型 保存 到 文件 系统 中 的 一 个 文件 夹 中 。 该 方法 有 一 个 参 
数 ， 该 参数 是 以 “file:/” 方 案 (scheme ) 名 开头 的 URL 字符 串 。 需 要 注意 的 是 ， 此 处 之 所 以 能 
将 模型 保存 到 文件 系统 是 因为 使 用 的 是 tfjs-node 版 。 浏 览 旭 版 的 TensorFlow.js 也 提供 了 
model.save() API， 但 是 并 不 能 和 直接 访问 机 融 的 原生 文件 系统 ， 因 为 浏览 硕 出 于 安全 考量 会 限 
制 这 类 访问 。 因 此 ， 如果 要 在 浏览 妖 中 使 用 TensorFlow.js 存储 模型 ， 必 须 使 用 非 文 件 系 统 的 存储 
地 址 (比如 浏览 器 的 localStorage 对 象 科 IndexedDB 数据 库 )。 也 就 是 说 ， 要 使 用 除 “file://” 之 外 
的 URL 方案 。 

modqel .save() 是 异步 的 ， 这 是 因为 文件 存储 通 第 涉及 文件 或 网 络 IO。 因 此 ， 上 面 的 代码 
在 调用 save () 时 使 用 了 await。 假 设 modelSavePath 的 值 为 /tmp/tfjs-node-mnist, 
model .save () 调 用 完成 后 ， 就 可 以 在 该 路 径 下 查看 保存 的 文件 。 


ls -lh /tmp/tfjs-node-mnist 


这 会 打印 出 指定 路 径 下 的 文件 ， 看 起 来 就 像 下 面 这 样 。 


-IW-Ir--r-—- 1 user group 4.6K Aug 14 10:38 model.Json 











-IW-r--r-- 1 user group 2.3M Aug 14 10:38 weights.bin 


我 们 从 中 可 以 看 到 以 下 两 个 文件 。 

口 modeljson 是 一 个 JSON 文件 , 它 包含 了 你 存 的 模型 拓扑 结构 。 此 处 的 “拓扑 结构 ”包括 : 
组 成 模型 的 层 的 类 型 、 各 层 对 应 的 配置 参数 ( 比如 conv2d 层 的 filters 和 dropout 层 的 
rate ), 以 及 层 之 间 的 连接 方式 。MNIST 数据 集 的 convnet 中 的 层 连接 方式 很 简单 ， 因 为 
它 是 一 个 顺序 模型 。 之 后 ， 我 们 将 见 到 一 些 连接 模式 不 那么 简单 的 模型 。 这 些 模型 也 可 
以 用 model .save () 保存 到 人 硬盘。 

口 除了 模型 的 拓扑 结构 ，model.json 还 包含 模型 的 权重 清单 。 权 重 清单 部 分 包含 模型 所 有 权 
重 的 名 字 、 形 状 、 数 据 类 型 , 以 及 权重 值 存 储 的 位 置 。 这 就 引出 了 第 二 个 文件 : weights.bin。 
从 名字 的 后 缀 可 以 看 出 ，weights.bin 是 一 个 二 进 制 文件 , 它 存储 了 模型 的 所 有 权重 值 。 它 
是 一 个 遍 平 的 二 进 制 数 据 流 ， 且 并 没有 界定 每 个 权重 的 开始 和 结束 。 权 重 的 开始 和 结束 
的 界定 存储 于 model.json 文件 的 JSON 对 和 象 中 ， 可 以 在 JSON 对 和 象 的 weightsManifest 
属性 中 找到 这 些 “ 元 信息 ”。 

如 果 要 在 tfs-node 环境 中 加 载 模 型 ， 可 以 使 用 tf.1oadLayersModel () 方 法 。 调 用 该 方法 

时 需要 指定 model.json 的 文件 路 径 (下面 代 码 使 用 的 是 上 文 假设 的 路 径 )。 


const loadedModel = await tf.loadLayersModel('file:///tmp/tfjs-node-mnist').; 


tf.loadLayersModel () 会 先 通 过 反 序 列 化 之 前 在 modeljson 中 保存 的 拓扑 结构 数据 重建 
模型 。 随 后 ,tf.1oadLayersModel () 会 结合 modeljson 文件 中 的 权重 清单 ， 该 取 weights.bin 中 的 
二 进 制 权重 值 , 从 而 直接 将 模型 权重 设 为 这 些 值 和 model .save() 类 似 , tf.1loadLayersModel () 
是 异步 的 ， 因 此 此 处 的 调用 也 需要 使 用 await。1oadegdModel 会 存储 调用 返回 后 的 模型 对 和 象 。 
该 模型 对 象 ， 从 各 种 角度 来 看 ， 都 和 之 前 用 代码 清单 4-5 和 代码 清单 4-6 中 的 JavaScript 代码 创 
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建 并 训练 好 的 模型 是 等 效 的 。 模 型 加 载 完 成 后 ,就 可 以 调用 模型 对 象 提供 的 各 种 方法 。 比 如 ， 可 
以 调用 summary () 方 法 打印 模型 拓扑 结构 的 报告 ; 可 以 调用 predict () 方 法 进行 推 央 ;可 以 调 
用 evaluate() 方 法 评估 模型 的 准确 率 ; 甚至 还 可 以 调用 fit () 方 法 重新 训练 模型 。 最 后 ， 如 果 
你 想 的 话 ， 还 可 以 再 次 将 模型 存 回 硬盘 。 重 新 训练 并 重新 保存 加 载 的 模型 的 工作 流程 ， 将 在 第 5 
章 讨 论 迁 移 学 习 时 派 上 用 场 。 

上 一 段落 所 说 的 对 浏览 各 环境 也 同样 适用 。 可 以 在 网 页 中 使 用 之 前 保存 的 文件 重组 模型 。 重 
组 后 的 模型 支持 tf .LayersModel () 相 关 的 完整 流程 。 有 一 点 需要 注意 : 如 有 果 在 模型 重组 后 再 
次 训练 模型 ,训练 过 程 会 非常 漫长 且 低 效 , 因 为 加 强 版 的 convnet 对 于 浏览 右 环 境 过 大 ,在 ts-node 
和 在 浏览 絮 中 加 载 模型 的 唯一 根本 区 别 是 URL 方案 : 后 者 必须 使 用 非 “file:/” 方 案 。 通 常 可 以 
将 model.json 和 weights.bin 文件 作为 静态 资源 文件 部 署 到 HITP 服务 如 上 。, 假设 当前 的 主机 名 为 
localhost， 且 模型 文件 存储 在 服务 套路 径 my/models/ 中 。 那 么 就 可 以 用 下 面 的 这 行 代码 在 浏览 用 
中 加 载 模型 。 


const loadedModel = 
awalt tf.loadLayersModel('http:///localhost/my/models/model .json'); 


在 浏览 顶 中 进行 基于 HTTP 的 模型 加 载 时 ，tf .loadLayersModel () 内 部 会 调用 浏览 絮 内 
置 的 fetch 水 数 。 因 此 ，tf .loadLayersModel () 具 有 以 下 特性 和 属性 。 
口 同时 支持 http:/ 和 https://。 
口 支持 相对 服务 各 路 径 。 事 实 上 ， 使 用 相对 路 径 时 ， 可 以 省 略 URL 中 的 http:// 或 https:// 部 
分 。 例 如 ， 如 果 网 页 位 于 服务 器 路 径 my/index.html ， 并 且 模 型 的 JSON 文件 位 于 
my/modelsmodel.json， 那 么 就 可 以 使 用 相对 路 径 models/model.json。 











const loadedModel = await tt. LIoadqLayersModqel ( 'modqels/modqe1.Jjson' ) ; 


口 如 果 要 为 HTTP/HTTPS 请 求 配 置 额外 的 选项 ， 应 将 参数 从 原先 的 字符 串 改 为 tf.io. 
browserHTTPRequest () 方 法 。 例 如 ， 可 以 用 类 似 下 面 的 方法 给 请 求 配 置身 份 验证 信息 
和 消 县 头 。 
const loadedModel = await tf.loadLayersModel (tf .1o.pbprowserHTTPReduest ( 


'http://foo.bar/path/to/model.json', 
{credentials: 'include', headers: {'key_1': 'value 1'}})); 
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至 此 , 我 们 展示 了 如 何 使 用 convnet 完成 计算 机 视觉 任务 。 但 视觉 不 是 人 类 唯一 的 感知 方式 。 
音频 是 另 一 种 重要 的 感知 型 数据 , 并 且 可 以 通过 浏览 硕 API 获取。 那么 该 如 何 识别 语音 的 内 容 和 
含义 ， 以 及 其 他 类 型 的 声音 呢 ? 不 可 思议 的 是 ，convnet 不 仅 可 用 于 计算 机 视觉 ， 同 时 还 对 音频 
相关 的 机 需 学 习 任 务 有 极 大 助 益 。 

本 章 你 会 学 到 如 何 用 一 个 和 MNIST 数据 集 类 似 的 convnet 来 完成 一 个 相对 简单 的 首 频 分 类 
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任务 。 该 音频 任务 的 目标 是 将 简短 的 语音 片段 分 成 约 20 个 单词 类 别 。 这 个 任务 和 亚马逊 Echo 和 
谷歌 Home 这 类 智能 音箱 相 比 要 更 为 简单 。 具 体 而 言 ， 这 类 智能 音箱 ， 或 者 说 语音 识别 〈speech 
recognition ) 系统 ， 涉 及 的 单词 库 要 比 本 示例 使 用 的 大 。 同 时 ， 这 些 系统 处 理 的 是 由 多 个 口语 单 
词组 成 的 连续 首 频 数据 ， 而 本 示例 处 理 的 是 单独 的 口语 单词 。 因 此 ， 严格 意义 上 说 ， 本 示例 不 能 
算 作 “语音 识别 硕 ”; 更 准确 地 说 ， 它 是 一 个 “单词 识别 硕 ”( word recognizer ) 或 者 说 “口令 识 
别 锅 ”( speech-command recognizer )。 尽 管 如 此 ， 但 本 示例 仍 有 很 多 实际 用 途 〈 比如 无 手 控制 UI 
和 针对 残障 人 士 的 辅助 性 功能 )。 同 时 ， 本 示例 展示 的 深度 学 习 技 巧 也 是 更 高 级 的 声音 识别 系统 
的 基础 。” 


时 频谱 : 将 音频 表示 为 图 像 


和 任何 次 度 学 习 应 用 一 样 ， 理 解 模 型 的 工作 原理 之 前 ， 需 要 先 理 解 学 习 所 用 的 数据 。 理 解 
音频 convnet 的 工作 原理 之 前 , 需要 和 完 学 习 如 何 将 首 频 表示 为 张 量 。 正 如 高 中 物理 所 学 的 ， 声音 
是 气压 变化 的 模式 。 麦 克 风 感知 到 气压 的 变化 ， 并 将 它们 转换 成 电信 号 ， 随 后 由 计算 机 的 声卡 
将 电信 号 数字 化 。 现 代 Web 浏览 器 可 以 使 用 WebAudio API。 它 们 能 够 和 声卡 通信 ， 为 Web 应 
用 程序 提供 实时 的 、 数 字 化 的 音频 信号 〈 经 过 用 户 授权 )。 因 此 ， 从 JavaScript 程序 员 的 角度 来 
看 ， 首 频数 据 可 以 看 作 由 实数 组 成 的 一 些 数组 。 在 深度 学 习 中 ， 这 样 的 数组 通常 会 表示 为 一 维 
张 量 。 

你 可 能 会 问 : 如 何 将 我 们 之 前 学 过 的 convnet 应 用 到 一 维 张 量 上 呢 ? 难道 convnet 不 是 只 能 
用 在 二 维 或 更 高 维度 的 张 量 上 吗 ” 毕竟 convnet 的 关键 层 ， 包 括 conv2d 层 和 maxPooling2d 层 ， 
都 需要 利用 二 维 空间 的 空间 关系 。 事 实 上 ， 音 频 可 以 表示 为 称 作 时 频谱 (spectrogram ) 的 特殊 图 
像 。 使 用 时 频谱 不 仅 能 使 convnet 可 以 应 用 到 音频 上 ， 同 时 也 有 深度 学 习 之 外 的 理论 依据 。 

如 图 4-12 所 示 ， 时 频谱 是 二 维 的 数值 数组 。 它 可 以 用 灰 度 图 的 形式 显示 出 来 ， 就 和 之 前 的 
MNIST 数据 集中 的 图 像 一 样 。x 轴 维 度 是 时 间 ，y 轴 维 度 是 频率 。 时 频谱 的 每 个 纵向 切 刻 都 是 一 
个 短 时 间 和 窗口 内 的 音频 频谱 ( spectrum ), 频谱 会 将 音频 解构 成 不 同 的 频率 组 成 部 分 。 这 些 频 率 组 
成 部 分 可 以 理解 为 不 同 的 “ 首 调 ”( pitch )。 正 如 棱镜 可 以 将 光 分 解 成 不 同 的 颜色 ,一 种 叫 作 传 里 
叶 变 换 ( Fourier transform ) 的 数学 运算 可 以 将 音频 解构 成 多 个 频段 。 总 体 来 说 ， 时 频谱 描述 了 在 
连续 的 短 时 间 和 窗口 (通常 为 20 毫秒 左右 ) 内 ， 音 频 的 频率 部 分 是 如 何 改变 的 。 

由 于 下 列 原因 ， 时 频谱 是 音频 的 合适 表示 。 第 一 ,它们 能 节省 空间 。 原 波形 〈waveform ) 中 
的 浮 点 数 数量 是 时 频谱 中 浮 点 数 数量 的 数 倍 。 第 二 ， 笼统 地 说 ， 时 频谱 的 工作 原理 和 人 耳 听 力 的 
工作 原理 非常 相似 。 人 类 内 耳 有 一 个 结构 叫 作 耳蜗 , 它 可 以 进行 生物 版 的 傅 里 叶 变 换 。 也 就 是 说 ， 
它 可 以 将 首 频 解构 成 不 同 的 频段 ,然后 由 不 同 的 听觉 神经 元 组 合 进行 处 理 。 第 三 , 将 语音 音频 表 
示 为 时 频谱 可 以 很 容易 地 区 分 开 不 同类 型 的 语 首 首 频 。 图 4-12 中 的 语 首 时 频谱 示例 展示 了 这 些 
特点 。 元 首 和 辅音 的 时 频谱 拥有 不 同 的 标志 性 模式 。 数 十 年 前 ， 也 就 是 机 带 学 习 还 未 被 广泛 使 用 

































































GD 参见 Ronan Collobert、Christian Puhrsch 和 Gabriel Synnaeve 发 表 的 文章 “Wav2Letter 一 An End-to-End ConvNet-based 


Speech Recognition System”。 
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时 , 语 首 识别 的 研究 者 曾 试 图 通过 手动 制定 的 规则 ， 检测 时 频谱 中 不 同 的 元 首 和 辅 首 。 有 了 深度 
学 习 ， 我 们 就 可 以 摆脱 手动 制定 规则 的 沉 重 负担 了 。 





图 4-12 “zero” 和 “yes” 这 两 个 单词 的 痛 频 时 频谱 。 时 频谱 表示 结合 了 痛 频 的 时 间 维 度 和 





频率 维度 。 每 个 沿 着 时 间 轴 ( 图 像 中 的 一 列 ) 的 切片 都 是 一 个 短暂 的 时 间 和 窗口; 
个 沿 肴 频率 轴 的 切片 都 对 应 一 个 特定 频段 〈 音 调 )。 图 像 的 每 个 像素 值 表示 音频 在 
特定 频段 及 特定 时 间 点 的 相对 能 量 。 图 中 的 时 频谱 中 灰 度 较 深 的 区 域 对 应 能 量 较 高 
的 音频 部 分 。 不 同 的 语音 首 频 有 不 同 的 标志 性 特征 。 比 如 , 像 “z” 和 “s” 这 样 的 
吃 声 辅音 (sibilant consonant ) 的 特征 是 ， 其 准 稳 态 能 量 ( quasi-steady-state energy ) 
主要 集中 在 2 ~ 3kHz 以 上 的 频段 。 像 “e” 和 “o” 这 样 的 元 音 的 特征 是 其 位 于 低频 
段 (小 于 3kHz ) 的 杆 癌 能 量 带 (能量 峰值 )。 这 些 能 量 峰值 在 声学 中 叫 作 共振 峰 
( formant )。 不 同 的 元 音 有 不 同 的 共振 峰 频率 。 不 同音 频 的 这 些 独特 特征 都 可 以 用 
于 基于 深度 convnet 的 单词 识别 


让 我 们 停 下 来 思考 一 下 。 观 察 图 4-1 中 的 MNIST 图 像 ， 以 及 图 4-12 中 的 首 频 时 频谱 ， 你 会 
发 现 这 两 种 数据 集 的 图 像 其 实 有 很 多 相似 性 ,两 种 图 像 都 在 二 维特 征 空间 中 显示 出 一 些 特定 的 模 
式 。 经 过 专业 训练 的 人 可 以 用 肉眼 分 辨 出 它们 的 区 别 。 两 种 图 像 的 特征 的 具体 位 置 、 尺 寸 以 及 其 
他 细节 都 具有 一 定 的 随机 性 。 最 后 两 个 数据 集 对 应 的 任务 都 是 多 分 类 任务 。MNIST 数据 集 有 10 
种 可 能 的 类 别 , 而 当前 示例 的 语音 指令 数据 集 则 包含 20 种 类 别 (0~9 的 10 个 数字 , “up”“down” 
“left”“Tright”“go”“stop”“yes”“no”， 以 及 “unknown” 这 个 表示 来 知 单词 的 类 别 和 
“background-noise” 这 个 表示 背景 噪声 的 类 别 ), 正 因为 这 些 数据 集 本 质 上 的 相似 性 , 所 以 convnet 
才 可 适用 于 口令 识别 任务 。 

但 这 两 种 数据 集 间 仍 有 一 些 值得 注意 的 区 别 。 首 先 , 口令 数据 集中 的 音频 是 包含 一 定 噪声 的 。 
从 图 4-12 中 的 时 频 图 示例 就 可 见 一 斑 。 图 中 包含 一 些 并 不 属于 语 首 的 黑色 像 系 组 成 的 斑点 。 其 
次 , 口令 数据 集中 的 每 个 时 频谱 的 尺寸 部 是 43 x 232， 这 比 MNIST 数据 集中 图 像 的 28 像 系 x 28 
像素 尺寸 要 大 得 多 。 同 时 ,时 频谱 时 间 维 度 的 尺寸 和 频率 维度 的 尺寸 是 非 对 称 的 。 这 些 区 别 会 体 
现在 我 们 将 为 音频 数据 集 使 用 的 convnet 上 。 

定义 和 训练 口令 convnet 的 代码 位 于 ts-models 代码 仓库 中 ,可 以 通过 以 下 命令 获取 源 代码 。 


git clone https://github.com/tensorflow/tfjs-models.git 
cd speech-commands/training/browser-fft 


模型 的 创建 和 编译 都 封装 在 model.ts 文件 里 的 createModel () 函数 中 〈 见 代码 清单 4-8 )。 
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代码 清单 4-8 ”分 类 口令 时 频谱 的 convnet 


function createModel (inputShape: tf.Shape, numClasses: number) { 





const model = tf.sequential(); 
J ee 重复 使 用 conv2d 层 加 maxPooling2d 层 
filters: 8, 的 组 合 
kernelSize: [2，8]， 
activation: 'relu', 
inputShape 


})); 
model.add(tf.layers.maxPooling2d({poolSize: [2, 2], strides: [2, 2]1})); 


model .addqd( tf.layers.conv2d(t 
filters: 32, 
kernelSize: [2, 4],， 
activation: 'relu,' 





})); 
model.add(tf.layers.maxPooling2d({poolSize: [2, 2], strides: [2, 2]1})); 
model.addl 
tf.layers.conv2d(t 
filters: 32, 
kernelSize: [2, 4],， 
activation: 'relu' 
})); 
model.add(tf.layers.maxPooling2d({poolSize: [2, 2], strides: [2, 2]1})); 
model.addl 
tf.layers.conv2d(t 
filters: 32, 


多 层 感知 kernelSize: [2, 4], 
机 的 起 点 activation: 'relu' 
})); 
model.add(tf.layers.maxPooling2d({poolSize: [2, 2], strides: [1, 2]})); 





—————— > model.add(tf.layers.flatten()).; 


( 
( 
model.add(tf.layers.dropout ({rate: 0.25})); ee 
model.add(tf.layers.dense({units: 2000, activation: 'relu'})); 缓解 过 拟 合 
4 已 
] ( 
( 











model.add(tf.layers.dropout ({rate: 0.5})); 
model.add (tf.layers.dense({units: numClasses, activation: 'softmax'}));} 
model.compilel(t 为 多 分 类 任 冬 配置 损 
loss: 'categoricalCrossentropy,' 为 多 分 类 任务 配置 损失 
| ′ | 函数 和 度量 指标 


optimizer: tf.train.sgd(0.01), 
metrics: ['accuracy'] 

I 

model .summary (); 

return model; 


} 


音频 convnet 的 拓扑 结构 和 MNIST 数据 集 convnet 的 拓扑 结构 看 起 来 非常 相似 。 该 顺序 模型 
的 开始 是 卷 积 部 分 ， 它 重复 使 用 了 conv2d 层 加 maxPooling2d 层 这 一 组 合 。 卷 积 部 分 止 于 局 平 化 
层 ， 紧 随 其 后 的 是 MLP。MLP 拥有 两 个 密集 层 。 隐 藏 的 密集 层 使 用 的 是 ReLU 激活 孔 数 ， 而 最 
后 一 层 ( 输出 层 ) 使 用 的 是 归 一 化 指数 激活 图 数 ,， 这 两 个 配置 都 适用 于 当前 的 分 类 任务 。 模 型 在 
编译 阶段 将 categoricalCrossentropy 设 为 损失 羡 数 ， 并 以 准确 率 作 为 训练 和 评 佑 的 度量 指 
标 。 这 和 MNIST 数据 集 的 convnet 是 完全 相同 的 ， 因 为 两 个 数据 集 对 应 的 都 是 多 分 类 任务 。 首 
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频数 据 集 的 convnet 和 MNIST 数据 集 的 convnet 还 有 些 有 趣 的 不 同 点 。 上 有 具体 而 言 ， 前 者 conv2d 
层 的 kernelsize 属性 是 长 方形 的 (例如 ，[2，8] )， 而 不 是 正方 形 的 。 这 是 为 了 匹配 时 频 图 的 
形状 ， 即 长 方形 ， 因 为 时 频 图 的 频率 维度 尺寸 要 大 于 时 间 维 度 。 

训练 模型 之 前 ,需要 先 下 载 口 令 数 据 集 。 该 数据 集 来 自 于 Pete Warden， 合 歌 大 脑 团队 的 一 
名 工程 师 (参见 GitHub 网 站 上 Simple Audio Recognition 的 audio recognition.md )。 它 已 经 被 转换 
为 浏览 磊 专 用 的 时 频谱 格式 。 


curl -fSsL https://storage.googleapis.com/learnjs-data/speech- 
Commands/speech-commands-data- vO0.02-browser.tar.gz -oO speech-commands-— 











data-v0.02-browser.tar.gz && 
tar xzvf speech-commands-data-v0.02-browser.tar.gz 


上 面 的 命令 会 下 载 并 解压 浏览 着 版 的 口令 数据 集 。 数 据 集 解压 完毕 后 ,就 可 以 用 以 下 命令 居 
动 训练 过 程 。 


yarn 





yarn train \ 
speech-commands-data-browser/ \ 
/tmp/speech-commands-model/ 


yarn train 的 第 一 个 参数 是 训练 集 的 位 置 。 第 二 个 参数 指定 了 模型 的 JSON 文件 、 权 重文 
件 ， 以 及 其 他 元 数据 的 JSON 文件 的 保存 位 置 。 正 如 之 前 训练 加 强 版 MNIST 数据 集 的 convnet 
一 样 ， 音 频 convnet 的 训练 也 会 在 二 s-node 环境 中 进行 。 这样 ， 如 果 和 需要， 也 可 以 利用 GPU 的 算 
力 。 因 为 这 里 的 数据 集 和 模型 都 比 MNIST 手写 数字 分 类 问题 使 用 的 要 更 大 ， 所 以 训练 会 花费 更 
长 时 间 (可 达 数 个 小 时 )。 如 果 你 的 计算 机 有 可 以 用 CUDA 的 GPU 的 话 ， 那 么 像 下 面 这 样 对 训 
练 命令 稍 加 修改 就 可 以 使 用 GPU 极 大 地 提升 训练 速度 。 给 之 前 的 命令 加 上 --gpu， 这 样 就 能 使 
用 ts-node-gpu， 而 不 是 切 S-node ( CPU 模式 ) 进行 训练 了 。 


yarn train \ 


“gpa \ 
speech-commands-data-browser/ \ 
/tmp/speech-commands-model/ 


训练 结束 时 ， 模 型 能 达到 约 94% 的 评估 (测试 ) 准确 率 。 

训练 好 的 模型 会 保存 在 之 前 命令 指定 的 文件 路 径 。 和 之 前 使 用 切 S-node 训练 的 MNIST 数据 
集 的 convnet 类 似 , 保存 好 的 模型 也 可 以 在 浏览 硕 中 加 载 使 用 。 然后, 还 需要 熟悉 WebAudio API， 
这 样 你 才能 从 麦克 风 获 取 数 据 ,， 然 后 将 它们 预 处 理 成 模型 可 用 的 格式 。 为 了 方便 你 使 用 , 我们 已 
经 封装 好 了 一 个 类 ， 它 支持 加 载 训练 好 的 音频 convnet 模型 的 功能 ， 同 时 还 文 持 获取 数据 和 预 处 
理 数 据 。 如 果 你 对 首 频 数据 的 输入 省 线 的 工作 原理 感 兴 趣 ， 可 以 人 研究 切 S-model 代码 仓库 中 
speech-commands/src 文件 夹 中 的 代码 。 上 述 的 类 可 以 通过 npm 从 @tensorflow-models/speech- 
commands 模块 获取 。 代 码 清单 4-9 展示 了 如 何 用 上 述 的 类 在 浏览 顶 中 进行 在 线 口令 识别 的 极 简 
示例 。 
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代码 清单 4-9”@tensorflow-models/speech-commands 模块 的 使 用 示例 
创建 一 个 口令 识别 器 的 实例 , 它 会 
BN peeheonands si. 使 用 浏览 器 内 置 的 快速 传 里 叶 变 
导入 前 确保 它 是 package.json 换 (FFT) 
文件 中 列 出 的 依赖 之 一 


import * as SpeechCommands from 





'@tensorflow-models/speech-commands'; 观察 模型 可 识别 的 单词 标签 
(包括 “background-noise” 
Const recognizZer = 和 unknown” 标 站 
M72 





SpeechCommands.create('BROWSER_ FFT'); 





console.1log (recognizer.wordLabels()); < 才 一 一 一 一 一 一 一 








recognizer.listen(result => { 


let maxIndex; result .scores 包含 和 recognizer. 
let maxScore = -Infinity; wordLabels () 中 标签 对 应 的 概率 值 
result.scores.forFEach((score, 1) => { 
if (Score > maxScore) { 
maxTnaex = i; 找 出 最 大 概率 值 的 
maxSCore = scCore; 单词 的 索引 
} 
I 
console.log( Detected word S${recognizer.wordLabels() [maxIndex]} ); 


I 
probabilityThreshold: 0.75 


}); 


setTimeout(() => recognizer.stopStreaming(), 10e3); 
> 要 ， ， 10 秒 后 停止 
开始 用 流 数据 进行 在 线 识 别 。 第 一 个 参数 是 回调 在 线 识 别 


函数 。 只 要 识别 出 一 个 非 背 景 噪声 、 非 未 知 的 单 
词 , 并 且 其 概率 在 阅 值 之 上 (此 处 是 0.75)， 那么 
回调 函数 就 会 被 调用 
在 二 s-models 代码 仓库 的 speech-commands/demo 文件 夹 下 ， 可 以 找到 一 个 关于 如 何 使 用 
speech-commands 包 更 具体 的 例子 。 运 行 下 面 的 命令 以 克隆 并 运行 示例 程序 。 
dit Glons EEDE 7 /oathub.com ensort Low/ti1e-modele.g1it 
cd tfjs-models/speech-commands 
yarn && Yarn publlish— local 


cd demo 
yarn && yarn link-local && yarn watch 


yarn watch 命令 会 自动 在 默认 浏览 带 中 打开 一 个 新 的 标签 页 。 为 了 确保 能 成 功 运行 口令 识 
别 禹 ， 确 保 你 的 计算 机 已 经 溉 有 麦克 风 ( 绝 大 部 分 笔记 本 计算 机 都 内 置 了 麦 元 风 )。 每 当 识 别 僵 
识别 出 单词 表 中 的 一 个 单词 ， 该 单词 会 和 它 对 应 的 1 秒 长 的 时 频 详 一 同 显示 在 屏幕 上 。 这 就 是 一 
个 基于 浏览 器 、WebAudioAPI 和 深度 convnet 的 口令 识别 咒 是 如 何 运作 的 。 当 然 ， 它 目前 还 只 文 
持 持 个 单词 的 识别 , 无 法 识别 珊 语 法 的 连续 语 首 。 要 做 到 识别 连续 语 首 ,还 需要 使 用 其 他 类 型 的 
神经 网 络 基础 结构 ， 这 些 基 础 结构 能 够 处 理 序列 信息 。 这 些 将 在 第 8 章 中 介绍 。 
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4.5 ”练习 


(1) 浏览 大 版 的 MNIST 数据 集 convnet ( 见 代 码 清单 4-1 ) 有 两 组 conv2d 层 和 maxPooling2d 
层 。 将 代码 改 成 只 使 用 一 组 conv2d 层 和 maxPooling2d 层 ， 并 回答 以 下 问题 。 
a. convnet 中 可 训练 的 参数 总 数 有 何 变 化 ? 
b. 训练 速度 有 何 变 化 ? 
c. 训练 好 的 convnet 的 最 终 准 确 率 有 何 变 化 ? 
(2) 这 个 练习 和 练习 (1) 类 似 ， 不 过 修改 的 不 是 conv2d 层 和 maxPcooling2d 层 的 数量 ， 而 是 
convnet〈 见 代码 清单 4-1 ) 的 MLP 部 分 的 密集 层 数量 。 如 采 删 除 第 一 个 密集 层 ， 仪 保留 第 二 个 
密集 层 ( 输出 层 )， 参 数 的 总 数 、 训 练 速度 和 最 终 准 确 率 会 有 何 变 化 ? 
(3) 从 mnist-node 示例 ( 见 代码 清单 4-5 ) 中 的 convnet 删除 dropout 层 。 训 练 过 程 和 最 终 测 试 
准确 率 有 何 变化 ? 为 何 会 发 生 这 些 变化 ? 这 说 明了 什么 ? 
(4) 使 用 tf .browser.fromPixels() 方 法 从 网 页 里 的 与 图 像 和 视频 相关 的 元 系 中 获取 图 像 
数据 。 作 为 练习 ， 可 以 尝试 以 下 任务 : 
a. 使 用 tf.browser.fromPixels() 从 img 标签 获取 一 个 表示 彩色 JPG 图 像 的 张 量 。 
口 tf .browser.frompPixels() 返 回 的 图 像 张 量 的 高 和 宽 各 是 多 少 ? 是 什么 决定 了 高 和 宽 
的 尺寸 ? 

口 用 tf.image.resizeBilinear() 改 变 图 像 的 尺寸 , 将 其 变 为 100 像 系 x 100 像 又 (高 x 
冤 ) 的 固定 尺寸 。 

男 重复 上 个 步骤 ,但 是 使 用 另 一 种 改变 尺寸 的 阴 数 tf. lmage.resizeNearestNeighbor()。 
你 能 看 出 这 两 种 函数 绪 采 的 不 同 吗 ? 

b. 在 HTML 中 创建 一 个 canvas 元 素 ,然后 使 用 rect () 这 样 的 函数 在 里 面 任意 绘制 一 些 图 形 。 
如 果 你 想 要 的 话 ， 还 可 以 使 用 更 高 级 的 库 ， 比 如 d3.js 或 three.js， 在 其 中 绘制 更 复杂 的 二 维和 三 
维 形状 。 然 后 ， 使 用 tf.pbrowser.fromPixels () 从 canvas 元 素 中 获取 图 像 张 量 数据 。 
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口 convnet 通过 级 联 的 conv2d 层 和 maxPooling2d 层 从 输入 图 像 中 获取 二 维 的 空间 特征 。 

口 conv2d 层 是 多 通道 的 、 可 调 的 空间 性 过 滤 带 。 它 具有 局 部 性 和 参数 共享 这 两 大 特性 。 
此 ， 它 既是 强大 的 特征 提取 需 ， 也 是 高 效 的 表示 转换 方法 。 

口 通过 计算 固定 尺寸 窗口 内 的 最 大 值 ，maxPooling2d 层 可 以 减 小 输入 图 像 张 量 的 尺寸 ， 同 
时 获得 更 好 的 位 置 不 变性 。 

口 连 终 使 用 conv2d 层 和 maxPooling2d 层 的 组 合 后 ， 紧 接 者 通常 是 一 个 局 平 化 层 。 遍 平 化 层 
之 后 是 由 密集 层 组 成 的 MLP， 它 负责 进行 分 类 和 回归 任务 。 

口 因为 浏览 如 的 可 用 资源 有 限 ， 所 以 它 仅 适 用 于 训练 小 模型 。 要 训练 更 大 的 模型 ， 就 应 该 
使 用 ts-node， 即 Node.js 版 的 TensorFlow.js。ts-node 可 以 使 用 和 Python 版 TensorFlow 
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相同 的 CPU 和 GPU 并 行 计算 。 

口 随 着 模型 容量 增 大 , 过 拟 合 的 风险 也 增 大 了 。 给 convnet 加 入 dropout 层 可 以 绥 解 过 拟 合 。 
在 训练 中 ，dropout 层 会 将 输入 中 一 定 比 例 的 元 素 随 机 设置 为 零 。 

口 convnet 不 仅 适 用 于 计算 机 视 党 任务 , 它 同 时 也 能 在 音频 数据 上 取得 非常 好 的 分 类 准确 率 ， 
只 不 过 事先 要 将 音频 数据 表示 为 时 频谱 。 




















迁移 字 习 : 复 用 预 训练 的 
伸 经 网 络 





本 章 要 点 

口 什么 是 迁移 学 习 ; 为 何 对 于 很 多 问题 而 言 ， 它 比 从 头 训练 模型 要 好 。 

口 如 何 将 Keras 中 顶尖 的 、 预 训练 的 convnet 模型 导入 TensorFlow.js 中 ， 从 而 充分 发 挥 其 
特征 提取 能 

口 迁移 学 习 的 技巧 和 具体 工作 机 制 ， 包 括 如 何 固化 层 、 创 建新 的 迁移 头 部 层 和 进行 微调 。 

口 如 何 使 用 迁移 学 习 训练 简单 的 目标 检测 模型 。 


在 第 4 曹 中 ， 我 们 学 习 了 如 何 训练 convnet 识别 图 像 。 现 在 假设 如 下 场景 : 有 一 类 用 户 ， 他 
们 手写 的 数字 风格 和 原先 数据 集中 的 相差 很 大 ， 那 么 之 前 训练 的 convnet 在 这 类 数据 上 的 分 类 性 
能 必然 不 理想 。 假 设 我 们 能 从 这 些 用 户 收 集约 50 个 样 例 ， 那 么 是 否 能 利用 这 些 额外 的 数据 提升 
模型 的 性 能 呢 ? 再 假设 另 一 个 场景 : 有 一 个 电子 商务 网 站 , 它 想 要 实现 目 动 分 类 用 户 上 传 的 商品 
图 像 , 但 因为 这 些 上 传 的 图 像 跟 某 些 特定 领域 有 关 , 所 以 没有 公开 的 、 可 直接 使 用 的 convnet ( 比 
如 MobileNet” ) 会 专门 针对 这 类 图 像 进行 训练 。 上 述 问题 属于 自 定义 的 分 类 问题 。 如 果 能 单独 收 
集 不 多 的 〈 比 如 数 百 个 ) 有 标签 数据 ， 那 么 能 否 使 用 公开 可 用 的 图 像 模 型 来 解决 这 类 问题 呢 ? 

幸运 的 是 ， 有 一 种 叫 作 迁 移 学 习 (transfer learning ) 的 技巧 ， 能 帮助 解决 这 类 问题 。 它 是 本 
草 的 重点 。 


5.1 迁移 学 习 简 介 : 复 用 预 训 练 模型 


本 质 上 ， 迁 移 学 习 的 目的 是 通过 复 用 之 前 的 训练 成 有 末 , 加 速 新 的 学 习 任 务 。 它 需要 将 预 训练 
的 模型 应 用 到 新 的 数据 集 上 ,从 而 执行 和 训练 时 不 同 但 相关 的 机 硕 学 习 任 务 。 已 训练 的 模型 被 称 
为 基 模 型 (base model )。 迁 移 学 习 中 ， 有 时 需要 重新 训练 基 模 型 ， 有 时 需要 基于 基 模 型 创建 一 个 
新 模型 。 我 们 将 由 此 获得 的 新 模型 叫 作 迁移 模型 ( transfermodel )。 如 图 5-1 所 示 ， 重新 训练 所 需 























中 参见 Andrew G. Howard、Menglong Zhu、Bo Chen 等 人 的 文章 “MobileNets 一 Efficient Convolutional Neural Networks 
for Mobile Vision Applications” 。 
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的 数据 量 通 兹 会 比 训练 基 模 型 的 数据 量 小 得 多 (就 如 本 曹 开 篇 假设 的 两 个 场景 一 样 )。 因 此 ， 迁 
移 学 习 训练 耗费 的 时 间 和 资源 要 比 基 模 型 少 得 多 。 这 意味 着 用 TensorFlow.js 在 资源 受 限 的 环境 中 
(比如 浏览 化 中 ) 进行 了 迁移 学 习 是 可 行 的 。 因 此 迁移 学 习 对 TensorFlow.js 用 户 而 言 是 一 个 重要 的 
学 习 课题 


Es 
Ee 
的 数据 集 


























训练 初期 
(漫长 是 费力 ) 


图 5-1 迁移 学 习 的 通用 工作 流程 。 首 先 用 一 个 非常 大 的 数据 集训 练 基 模 型 。 最 初 的 训 
练 过 程 通常 会 非常 漫长 旦 会 消耗 很 大 的 算 力 。 随 后 可 能 会 将 基 模 型 作为 新 模型 
的 一 部 分 进行 重新 训练 。 重 新 训练 的 过 程 通常 会 使 用 比 原先 小 得 多 的 数据 集 。 
同样 ， 重 新 训练 消耗 的 算 力 也 会 比 最 初 的 小 得 多 。 这 意味 着 训练 可 以 在 搭载 
TensorFlow.js 的 边缘 设备 〈edge device ) 上 进行 ， 比 如 笔记 本 计算 机 或 手机 


本 市 开头 描述 迁移 学 习 时 用 的 关键 词 “不 同 但 相关 ”， 在 不 同 场景 下 的 意思 是 不 同 的。 
口 本 章 开 头 描述 的 第 一 个 场景 需要 让 模型 适应 某 个 特定 用 户 产生 的 数据 。 尽 管 这 些 数据 和 
原 数据 集 不 同 ， 但 分 类 任务 和 之 前 是 完全 一 样 的 ， 即 将 输入 图 像 归 为 10 个 可 能 数字 中 的 
一 个 。 这 类 迁移 学 习 叫 作 模型 自 适应 〈model adaptation )。 
口 其 他 迁移 学 习 问 题 涉及 和 之 前 数据 集 不 同 的 目标 (标签 )。 本 音 开 头 描述 的 商品 岁 像 分 类 
问题 就 属于 这 类 问题 。 
迁移 学 习 相 较 于 从 头 训练 模型 有 哪些 优势 呢 ? 可 以 归 为 以 下 两 点 。 
口 无 论 是 在 训练 所 需 的 数据 量 方面 ， 还 是 训练 消耗 的 算 力 方面 ， 迁 移 学 习 都 更 为 高 效 。 
口 迁移 学 习 能 复 用 基 模 型 的 特征 提取 能 力 ， 基 于 之 前 的 训练 成 果 进 一 步 改进 模型 。 
上 上述 两 点 对 于 所 有 任务 类 型 都 适用 ， 比 如 分 类 任务 和 回归 任务 。 就 第 一 点 而 言 ， 迁 移 学 习 
可 以 利用 之 前 训练 基 模 型 时 得 到 的 权重 (或 是 其 中 的 子 集 )。 因 此 ， 相 较 从 头 训练 模型 而 言 ， 迁 
移 学 习 能 够 使 用 更 少 的 训练 数据 ,在 更 短 的 时 间 内 收敛 到 一 定 级 别 的 准确 率 。 从 这 个 角度 来 看 ， 
迁移 学 习 和 人 类 学 习 新 任务 的 方式 相同 : 人 类 一 旦 掌握 了 一 个 任务 ( 比如 学 会 玩 一 种 纸牌 游戏 )， 
学 习 类 似 任务 ( 比如 玩 类 似 的 纸牌 游戏 ) 时 就 会 快 得 多 也 轻松 得 多 。 对 之 前 MNIST 数据 集 的 
convnet 而 言 ， 这 样 做 节省 的 训练 时 间 可 能 相对 较 少 。 然 而 ， 对 于 在 更 大 数据 集 上 训练 的 更 大 规 
模 的 模型 ( 比如 使 用 TB 级 图 像 数 据 训 练 的 工业 级 convnet ) 而 言 ， 节 省 的 时 间 就 非常 可 观 了 。 
就 第 二 点 而 言 ， 迁 移 学习 的 核心 思想 是 复 用 之 前 的 训练 结果 。 通 过 对 大 量 数据 的 学 习 ， 原 本 
的 神经 网 络 已 经 非常 善于 从 原始 数据 集中 提取 有 用 的 特征 。 这 些 特征 对 新 任务 而 言 同 样 有 用 ,只 
要 迁移 学 习 任 务 涉及 的 新 数据 和 原始 数据 无 太 大 差别 即 可 。 对 于 流行 的 机 需 学 习 领 域 , 研究 者 已 
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经 收集 并 构建 了 非常 大 的 数据 集 。 计 算 机 视觉 领 域 的 ImageNet 就 是 这 样 的 数据 集 ， 它 包含 上 百 
万 个 来 自 上 千 个 类 别 的 有 标签 图 像 。 次 度 学 习 人 研究 者 使 用 ImageNet 数据 集训 练 了 很 多 次 度 
convnet， 包 括 ResNet、Inception 和 MobileNet ( 我们 很 快 将 有 机 会 亲手 试验 MobileNet )。 由 于 
ImageNet 图 像 的 规模 和 多 样 性 ， 因 此 用 它 训 练 出 的 convnet 对 一 般 类 型 的 图 像 而 言 是 非常 好 的 特 
征 提取 需 。 这 些 特 征 提 取 融 对 上 文 提 到 的 场景 中 使 用 的 小 数据 集 也 非常 适用 。 但 是 反 过 来 , 用 这 
些小 数据 集训 练 出 这 样 的 特征 提取 需 则 是 不 可 能 的 。 迁 移 学 习 也 适用 于 其 他 领域 ， 比 如 目 然 语言 
处 理 。 在 该 领域 中 ， 人 们 用 包含 数 十 亿 单 词 的 语料库 (text corpus ) 训练 出 词 舱 入 模型 ( 即 对 语 
言 中 所 有 篆 用 词 的 回 量 表示 )。 这 些 词 舱 入 模型 对 语言 理解 任务 非 第 有 用 ， 因 为 这 些 任务 涉及 的 
文本 数据 集 要 小 得 多 。 言 归 正 传 ， 让 我 们 通过 一 个 示例 来 看 看 迁移 学 习 在 实践 中 是 如 何 使 用 的 。 


5.1.1 基于 兼容 的 输出 形状 进行 迁移 学 习 : 固化 层 


先 来 看 一 个 简单 的 示例 。 假 设 目标 是 只 用 MNIST 数据 集中 的 前 5 个 数字 (0~4) 训练 一 个 
convnet。 随后 , 我 们 将 用 由 此 得 到 的 模型 识别 训练 中 从 未 见 过 的 数字 , 即 剩 下 的 $ 个 数字 (S$~ 9 )。 
尽管 这 个 示例 看 起 来 有 点 刻意 , 但 它 诠释 了 迁移 学 习 的 基本 工作 流程 。 可 以 用 以 下 命令 下 载 并 运 
行 这 个 示例 。 









































git clone htps:/ /dgIthupb.com/ tensorft1ow/ft]JSs-examplLles .git 
cd tfjs-examples/mnist-transfer-cnn 
yarn && yarn watch 


在 示例 程序 打开 的 网 页 中 ， 单 击 “Retrain” 按 钮 启动 迁移 学 习 的 过 程 。 运 行 完 毕 后 ,会 看 到 
模型 在 从 未 见 过 的 5 个 数字 (5~9) 上 达到 96% 的 识别 准确 率 。 整 个 运行 过 程 在 中 高 端 笔记 本 计 
算 机 上 大 约会 花 30 秒 。 我 们 随后 会 看 到 ， 这 上 比 非 迁 移 学习 方 法 〈 即 从 头 训练 一 个 新 模型 ) 要 快 
得 多 。 下 面 会 逐步 解释 这 是 如 何 做 到 的 。 

该 示例 使 用 的 基 模 型 是 从 一 个 HITP 服务 顺 加 载 的 ， 而 不 是 从 头 训练 得 来 的 。 这 是 为 了 和 迁 
移 学 习 的 关键 工作 流程 保持 一 致 。 正 如 4.3.2 区 提 到 的 ，TensorFlow.js 提供 了 专门 用 于 加 载 预 训 
练 模型 的 tf .loadLayersModel () 方 法 。loaderjs 文件 调用 了 它 。 








const model = await tf.loadLayersModel (url); 
model .summary (); 


图 5-2 展示 了 代码 打印 出 的 模型 拓扑 结构 报告 。 如 你 所 见 , 该 模型 有 12 层 。” 该 模型 的 全 部 
参数 ， 即 约 60 万 个 权重 参数 ， 都 是 可 训练 的 ， 正如 我 们 目前 所 见 的 所 有 TensorFlow.js 模型 一 样 。 








@) 不 要 被 它 的 名 字 迷 惑 。ImageNet 是 一 个 数据 集 ， 并 不 是 神经 网 络 。 

@) 你 可 能 没 见 过 该 模型 中 的 激活 层 〈activation layer ) 类 型 。 激 活 层 是 一 种 目的 单一 的 层 类 型 ， 它 的 唯一 任务 是 计算 
输入 张 量 的 激活 函数 (比如 ReLU 函数 和 归 一 化 指数 函数 ) 值 。 假设 你 有 一 个 使 用 默认 激活 函数 ( 线性 激活 函数 ) 
的 密集 层 。 如 有 果 在 这 之 上 再 三 加 一 个 激活 层 ， 就 相当 于 直接 使 用 一 个 内 置 非 默认 激活 函数 的 密集 层 。 第 4 章 中 的 
示例 使 用 的 正 是 后 面 这 种 层 类 型 。 但 是 有 时 也 会 使 用 前 面 这 种 形式 。 在 TensorFlow.js 中 ,你 可 以 用 如 下 代码 实现 
这 样 的 模型 拓扑 结构 : const model = tf.sequential(); model.add(tf.layers.dense({untis: 5, 








inputShape})); model.add (tf.layers.activation({activation: 'relu'})。 
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注意 , loadrayersModel () 不 仅 会 加 载 模 型 的 拓扑 结构 ,同时 还 会 加 载 它 的 所 有 权重 值 。 因 此 ， 
加 载 的 模型 已 经 可 以 预测 数字 0 ~ 4 这 5 个 类 别 的 样 例 。 然 而 ， 这 并 不 是 我 们 的 目标 ， 我 们 的 目 
标 是 训练 该 模型 识别 新 的 数字 类 型 (5 ~ 9 )。 
























































Layer (type) Output shape Param # 

conv2q 1 (convaD) mll26,26:31 320 

de lvatiorn. 1 ot dvblon [null,26,26,32] 0 

Conv2Q_ 2 :Conv2D) [null,24,24,32] 9248 

activation 2 (Activation) [null, 24,24,32] 0 在 迁移 学 习 的 过 程 中 ， 这 
oT 一 些 参数 会 被 设 为 不 可 训练 
max pooling2d 1 (MaxPooling2d}) [null,12,12,32] 0 《 即 国 化 ) 

dQropout 1 (Dropout)} [null,12,12,32] 0 

flatten 1 (platteni [null,4608] 0 

dense_1 {Dense) [null,128] 589952 

activation 3 (Activation) [null,128] 9 

dt (Dropout) [null,128] 0 

ense eneer [null,s] 645 

activation 4 (Activation) [null,s] 日 





Total params: 600165 
Trainable params: 600165 
Non-trainable params: 0 





图 5-2 ”MNIST 图 像 识 别 和 迁移 学 习 使 用 的 convnet 的 拓扑 结构 报告 


仔细 观察 “Retrain” 按 钮 背后 的 回调 函数 (在 index.js 里 的 retrainModel () 男 数 中 ) 会 发 
现 ， 如 采 勾 选 了 “Freeze Feature Layers” 选 项 ( 默认 色 选 )， 有 几 行 代 但 会 将 模型 前 7 层 的 
trainable 属性 设 为 false。 

这 么 做 有 何 用 处 ? 默认 情况 下 , 通过 lo0adLayersModel () 方 法 加 载 预 训练 模型 或 重新 训练 
模型 后 ， 模 型 各 层 的 trainable 属性 都 是 true。trainable 属性 会 在 训练 时 (调用 fit () 或 
fitDataset () 方 法 时 ) 用 到 。 它 会 告诉 优化 硕 是 否 应 该 更 新 层 的 权重 。 这 意味 着 ,默认 情况 下 ， 
训练 会 更 新 模型 所 有 层 的 权重 。 但 是 ， 如 果 将 某 些 层 的 trainable 属性 设 为 false， 那么 训练 
就 不 会 更 新 这 些 层 的 权重 。 用 TensorFlow.js 的 术语 来 说 ， 这 些 层 变 得 不 可 训练 ( untrainable ) 或 
者 固化 (frozen ) 了 。 代 码 清 单 5-1 中 的 代码 会 固化 模型 的 前 7 层 ， 从 输入 并 的 conv2d 层 到 局 平 
化 层 。 与 此 相对 的 是 ， 和 镜 下 的 几 层 ( 密集 层 ) 仍 是 可 训练 的 。 


代码 清单 5-1 固化 convnet 的 前 几 层 ， 为 迁移 学 习 做 准备 


const trainingMode = ui.getTrainingMode ( ) : 








if (trainingMode === 'freeze-feature-layers') { 
Console.log('Freezing feature layers of the model.'); 
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for ‘(Let 1 三 站” TT 过 了 和平 斗 工 )， 并 





thigmodel ,laverslil Te s Talpe: < 一 一 一 固化 前 7 层 
} 
} else if (trainingMode === 'reinitialize-weights') { 
Const returnString = false ;，} 创建 一 个 和 基 模 型 拓 
this.model = await tf.models.modelFromJSON(t{ 扑 结 构 相 同 的 新 模型 ， 
modelTopology: this.model .toJSON(null, returnString) 但 是 使 用 重新 初始 化 
} 的 权重 值 
} 
this.model.compilel(t 
JoOSB: "categoricalCroBsentropy", 调用 fit() 前 需要 
optimizer: tf.train.adam(0.01), 新 编译 模型 , 否则 层 固 
metrics: ['acc'], 化 不 会 生效 


}); 
. 调用 compile() 后 , 再 次 打印 模型 的 
this.model.summary (); 拓扑 结构 报告 ， 会 看 到 很 大 一 部 分 模 
型 权重 参数 变 为 不 可 训练 





然而 ， 只 是 设置 各 层 的 trainable 属性 还 不 够 : 设置 完 该 属性 后 立即 调用 fit () 方 法 ,训练 
仍 会 更 新 模型 的 权重 ,如 代码 清单 5-1 所 示 , 调 用 Model .fit() 前 需要 先 调 用 Model .compile()， 
否则 trainable 属性 不 会 生效 。 之 前 提 到 过 ，compile () 调 用 会 配置 优化 蔽 、 损 失 函 数 和 度量 
指标 。 除 此 之 外 ， 该 方法 还 会 刷新 训练 时 应 该 更 新 的 权重 变量 的 列表 。compile () 调用 完成 后 ， 
紧 接 者 调用 summary () 再 次 打印 模型 的 拓扑 结构 报告 。 如 采 你 将 新 的 拓扑 结构 报告 和 图 5-2 中 旧 
的 结构 报告 进行 比较 ， 就 会 发 现 模 型 的 一 部 分 权重 变 为 不 可 训练 。 
Total params: 600165 


Trainable params: 590597 
Non-trainable params: 9568 


可 通过 计算 不 可 训练 参数 的 数量 来 确认 之 前 设置 的 属性 确实 已 经 生效 。 不 可 训练 的 参数 总 数 
为 9568， 等 于 两 个 有 权重 的 固化 层 ( 即 两 个 conv2d 层 ) 的 权重 参数 总 数 。 注 意 ， 有 些 固化 层 并 
不 包含 任何 权重 ( 比如 maxPooling2d 层 和 扁平 化 层 )， 因 此 固化 它们 并 不 会 增加 不 可 训练 参数 的 
总 数 。 

代码 清单 5-2 中 展示 了 实际 执行 迁移 学 习 的 代码 。 此 处 使 用 的 是 和 从 头 训练 模型 相同 的 fit () 
方法 。 该 调用 通过 配置 validqationData 字段 ， 获 取 了 模型 在 训练 中 未 见 过 的 数据 上 的 度量 指 
标 。 除 此 之 外 ， 此 处 还 为 fit () 调 用 设置 了 两 个 回调 函数 ， 一 个 更 新 UI 中 的 进度 条 ， 男 一 个 使 
用 切 S-vis 模块 (第 7 草 中 会 讲解 ) 绘制 损失 曲线 和 准确 挛 曲线。 这 是 之 前 未 曾 提 过 的 一 种 fit () 
API 使 用 方法 ， 即 fit () 调 用 既 可 以 设置 单个 回调 函数 ,也 可 以 用 数组 设置 多 个 回调 也 数 。 在 后 
面 这 种 场景 中 训练 时 ， 回 调 函 数 会 按照 设置 的 顺序 逐个 被 调用 。 


代码 清单 5-2 使 用 Mogdel .fit () 进行 迁移 学 习 
awalt this.model.fit(this.gteSsTrainData.x, this.gteSsTrainData.y, { 
batchSize: batchSize, 
epochs: epochs, 
validationData: [this.gteSsTestData.x, this.gteSsTestData.yl], 
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callbacks: | | 和 
ui.getProgressBarCallbackConfig (epochs) fit () 调 用 可 以 设置 
， | 多 个 回调 函数 





tfVis.show.fitCallbacks (surfaceInfo, ['val loss', 'val acc'], { 
ZOOmTOFit: true, 
ZoomToFitACccuracy: true, 在 迁移 学 习 过 程 中 ， 使 用 
height: 200， tis-vis 模块 绘制 模型 在 验 
callbacks: ['onEpochEnd'], 证 集 上 的 损失 和 准确 率 
J 





] 
}); 


迁移 学 习 的 结果 如 何 ? 如 图 5-3a 所 示 ， 它 在 10 个 轮 次 的 训练 后 准确 率 达 到 约 0.97。 整 个 训 
练 过 程 在 中 高 端的 笔记 本 计算 机 上 会 持续 大 约 15 秒 ， 看 起 来 还 不 错 。 这 和 从 头 训练 一 个 模型 有 
何 区 别 呢 ? 要 比较 两 种 训练 方式 的 区 别 , 可 以 做 一 个 实验 , 即 在 调用 fit () 之 前 , 重新 随机 初始 
化 预 训练 模型 的 权重 。 在 本 示例 的 Web 应 用 程序 中 , 单 击 "Retrain 按钮 之 前 , 先 从 ”Training Mode” 
下 拉 染 单 选 中 “Reinitialize Weights” 选 项 ， 就 可 以 实验 这 一 场景 。 实 验 结 采 显示 在 图 5-3b 中 。 

通过 比较 图 5-3a 和 图 5-3b 可 以 看 出 ,重新 随机 初始 化 权重 参数 使 损失 的 起 点 变 高 很 多 ( 0.36， 
对 比 之 前 的 0.30 )， 而 准确 率 的 起 点 则 变 低 很 多 〈0.88， 对 比 之 前 的 0.91 )。 它 最 终 在 验证 集 上 的 
准确 率 ( 约 0.95 ) 也 比 复 用 基 模 型 权重 的 结果 ( 约 0.97 ) 低 得 多 。 这 些 区 别 体现 了 迁移 学 习 的 优 
势 : 相 较 于 从 头 学 习 一 切 的 训练 方式 ， 通 过 复 用 模型 的 前 几 层 〈 特 征 提 取 层 )， 模 型 获得 了 一 种 
完 发 优势 。 这 是 因为 ， 迁 移 学 习 任 务 涉及 的 数据 和 训练 基 模 型 用 的 数据 相似 。 数 学 5 ~ 9 的 图 像 
和 数字 0 ~ 4 的 图 像 有 很 多 相似 之 处 : 它们 都 是 拥有 黑色 背景 的 灰 度 图 像 ， 并 有 旦 有 类 似 的 显示 模 
式 ( 相似 的 笔画 粗细 和 曲线 )。 因此, 模型 从 数字 0 ~ 4 学 到 的 特征 提取 方法 确实 也 对 学 习 新 数字 
5~ 9 非常 有 用 。 

如 果 不 固化 特征 提取 层 的 权重 会 如 何 呢 ”选中 “Training Mode” 下 拉 有 六 单 中 的 “Don’*t Freeze 
Feature Layers” 选 项 就 能 实验 这 一 场景 。 图 5-3c 展示 了 训练 的 结果 。 它 和 图 5-3a 有 几 个 区 别 值 
得 注意 。 

在 没有 固化 特征 提取 层 的 情况 下 , 损失 值 的 起 点 比 之 前 更 高 (比如 ,一 个 训练 轮 次 后 为 0.37， 
之 前 为 0.30 )， 准 确 率 的 起 点 比 之 前 更 低 (0.87， 之 前 为 0.91 )。 为 何 会 这 样 ? 刚 开始 用 新 数据 集 
训练 预 训练 模型 时 , 模型 会 有 很 多 错误 预测 ， 因 为 预 训练 模型 实际 上 是 在 对 5 个 新 的 数字 生成 随 
机 预测 。 因 此 ,损失 函数 的 值 会 非常 高 ,并且 其 曲线 的 斜 鞭 会 非 尝 大 。 相 应 地 ， 训 练 早 期 的 梯度 
信 会 非常 大 ， 并 会 导致 模型 所 有 权重 值 的 大 幅 波动 。 这 些 波动 最 终 造 成 了 图 5-3c 中 较 高 的 初始 
损失 。 在 图 5-3a 中 所 展示 的 正常 迁移 学 习 策 略 中 ， 模 型 的 最 初 儿 层 被 固化 了 ， 因 此 “屏蔽 ”了 
这 些 早期 的 大 幅 波 动 。 

部 分 因为 这 些 早期 的 大 幅 波 动 ， 非 固化 策略 的 最 终 准 确 率 为 图 5-3c 展示 的 约 0.95。 采 用 层 
国 化 的 迁移 学 习 策 略 的 结果 为 图 5-3a 展示 的 约 0.97。 也 就 是 说 ， 非 固化 策略 并 未 导致 结果 的 显 
著 改 进 。 
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图 5-3 MNIST 数据 集 的 convnet 通过 迁移 学 习 获 得 的 损失 和 验证 曲线 。(a) 固化 预 训练 
模型 的 前 7 层 后 获得 的 曲线 。(b) 重新 随机 初始 化 模型 的 全 部 权重 后 获得 的 曲线 。 
(c) 不 国 化 预 训练 模型 的 任何 层 得 到 的 曲线 。( 注意 , 图 5-3a~ 图 $-3c 的 y 轴 是 不 
同 的 。) (d) 为 了 方便 比较 , 将 图 5-3a~ 图 $-3c 的 损失 和 准确 率 曲 线 在 同一 坐标 系 
中 展示 


如 和 不 采用 层 固化 , 则 训练 耗 时 会 长 得 多 。 例如 , 我 们 在 上 自己 的 笔记 本 计算 机 上 实验 时 发 现 ， 
固化 特征 提取 层 后 , 训练 模型 只 需 30 秒 。 如 采 不 使 用 任何 层 固化 , 训练 会 消耗 约 两 倍 的 时 间 (60 
秒 )。 图 5-4 以 示意 图 的 形式 阐释 了 这 背后 的 原因 。 固 化 层 不 会 参与 反 向 传播 ， 因 此 fit () 处 理 
每 一 批 次 数据 时 会 快 得 多 。 
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图 5-4 说 明 为 什么 固化 模型 中 的 部 分 层 可 以 加 速 模型 训练 的 示意 图 。 图 中 用 向 左 的 黑色 箭头 标明 反 回 传播 
的 路 径 。(a) 当 没 有 固化 任何 层 时 , 每 个 训练 步 又 ( 每 个 批 次 的 训练 ) 会 更 新 模型 的 所 有 权重 ( wr~ws)， 
因此 这 些 权重 会 参与 反 向 传播 。 注意， 此 处 特征 (x ) 和 目标 (y ) 并 不 包括 在 反 向 传播 中 ， 因 为 它 
们 的 值 并 不 需要 更 新 。(b) 固化 模型 的 前 几 层 后 ,一 部 分 权重 (vi~v3 ) 会 被 排除 到 反 加 传播 之 外 。 
束 和 特征 (x ) 与 目标 (y) 一 样 ， 它们 会 用 作 损 失 计 算 中 的 常量 。 因 此 ， 反 向 传播 的 计算 量 大 大 减 
少 ， 目 然 会 提升 训练 的 速度 


以 上 几 点 为 迁移 学 习 的 层 固 化 策略 提供 了 合理 的 依据 : 它 能 够 复 用 基 模 型 的 特征 提取 层 , 并 
使 它们 人 免 受 新 训练 初期 的 大 幅 权 重 波 动 影响 ， 从 而 在 更 短 的 训练 周期 内 获得 更 高 的 准确 率 。 

在 进入 下 一 市 前 , 还 有 两 点 需要 注意 。 首 先是 模型 自 适 应 ， 即 重新 训练 模型 ， 并 使 其 更 适用 
于 某 个 特定 用 户 输 入 的 数据 的 过 程 。 这 一 过 程 和 上 文 展示 的 示例 非常 相似 。 它 们 都 需要 先 固化 靠 
近 输 入 端的 层 ， 然 后 让 接近 输出 端的 几 个 层 根 据 特 定 的 用 户 数据 进 行 调整 。 不 过 ,本 节 的 示例 并 
不 是 让 模型 适应 来 自 不 同 用 户 的 数据 ， 而 是 让 模型 适应 不 同 的 标签 。 其 次 ,你 可 能 会 好 奇 ， 要 如 
何 确认 fit () 调 用 前 后 , 固化 层 的 权重 确实 没有 发 生变 化 。 验 证 这 一 点 并 不 难 。 我们 将 验证 的 过 
程 作为 练习 (练习 2) 放 在 5.3 节 。 


5.1.2 ”对 不 兼容 的 输出 形状 进行 迁移 学 习 : 用 基 模 型 的 输出 创建 新 模型 


上 一 节 展 示 的 迁移 学 习 示 例 中 , 基 模 型 的 输出 形状 和 新 模型 的 输出 形状 相同 。 在 其 他 很 多 的 
迁移 学 习 场 景 中 ， 却 并 不 一 定 是 这 样 ( 见 图 5-5 )。 例 如 ， 如 果 用 5 种 数字 训练 出 的 基 模 型 来 给 4 
种 新 数字 分 类 ,那么 上 一 市 介绍 的 策略 就 不 适用 了 ,一 个 更 常见 的 场景 是 ,假设 有 一 个 用 ImageNet 
分 类 数据 集 预 训练 的 深度 convnet ( ImageNet 数据 集 有 1000 个 输出 类 别 )。 当 下 的 图 像 分 类 任务 
涉及 的 输出 类 别 比 训练 基 模 型 时 涉及 的 类 别 要 少 得 多 ( 见 图 5-5b )。 比 如 ， 当 下 的 任务 可 以 是 一 
个 二 分 类 问题 , 目标 是 检测 图 像 中 是 否 包 含 人 脸 ; 再 比如 ,， 它 可 以 是 一 个 输出 类 别 不 多 的 多 分 类 
问题 ， 目 标 是 判断 图 像 中 包含 的 商品 类 型 ( 即 本 半 开 篇 介绍 的 例子 )。 这 些 场 景 中 ， 基 模型 的 输 
出 形状 和 新 的 分 类 任务 是 不 兼容 的 。 

在 有 些 场景 中 , 新 的 机 天 学 习 任务 类 型 和 训练 基 模 型 时 设 定 的 任务 类 型 完全 不 同 。 比 如 , 基 
模型 训练 时 要 执行 的 是 分 类 任务 ， 但 迁移 学 习 后 ， 要 执行 的 是 回归 任务 〈 即 预测 一 个 数值 ， 见 图 
5-5c )。 在 5.2 市 中 ,你 还 会 见 到 一 种 更 耐人寻味 的 迁移 学 习 场 景 ， 在 该 场景 中 ,需要 通过 预测 数 
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值 数组 ， 而 不 是 单个 数值 ， 来 检测 并 定位 图 像 中 的 目标 。 


db 


d. 
原 输出 相同 形状 、 
形状 和 相同 激活 







激活 函数 国 数 〈S.1.1 节 ) 


b. 
不 同形 状 、 


相同 激活 
避 国 数 (5.1.2 市 


和 4$.1.3 节 ) 


二 。 
不 同 激 活 
贺 函数 (5.2 节 ) 


图 5-5 根据 新 模型 的 输出 形状 和 激活 函数 是 否 与 基 模 型 相同 ， 可 以 将 迁移 学 习 划分 为 3 种 类 型 。(a) 新 模 
型 的 输出 形状 和 激活 函数 与 基 模 型 完全 相同 。5.1.1 节 中 将 MNIST 数据 集 的 模型 迁移 学 习 到 新 的 数 
字 种 类 就 是 这 类 迁移 学 习 的 例子 。(b) 新 模型 的 激活 因数 类 型 和 基 模 型 相同 ， 这 是 因为 原 任 务 和 新 
任务 的 类 型 相同 ( 例如， 都 是 多 分 类 任务 )。 然 而 ， 它 们 的 输出 形状 并 不 相同 〈 即 两 种 任务 的 输出 
类 别 的 数量 不 同 )。5.1.2 市 和 5.1.3 市 都 提 及 了 这 种 迁移 学 习 类 型 。 比 如 5.1.2 市 中 提 到 的 用 网 络 摄 
像 头 控制 《上 吃 豆 人 ?了 风格 的 电子 游戏 ,再 比如 5.1.3 节 中 提 到 的 通过 迁移 学 习 识 别 一 组 新 的 口令 。 
(c) 新 模型 的 任务 类 型 和 基 模 型 不 同 〈 比如 一 个 是 回归 任务 ,一 个 是 分 类 任务 )。 基 于 MobileNet 的 
目标 识别 模型 就 是 这 类 模型 的 例子 


无 论 是 上 述 哪 种 场景 , 其 预期 的 输出 形状 都 和 其 模型 的 形状 不 同 。 这 意味 着 有 必要 构建 一 个 
新 模型 。 但 因为 我 们 目的 是 进行 迁移 学 习 ， 所 以 不 用 从 头 构建 新 模型 。 与 此 相反 ， 新 模型 将 基于 
基 模 型 。 我 们 将 用 tfjs-examples 代码 仓库 中 的 webcam-transfer-learning 示例 诠释 这 一 点 。 

运行 这 个 示例 前 , 先 确 保 你 的 计算 机 配 有 前 置 摄像 头 , 因为 本 示例 需要 通过 摄像 头 获取 迁移 
学 习 所 需 的 数据 。 如 今 ， 绝 大 部 分 笔记 本 计算 机 和 平板 计算 机 都 有 前 置 摄像 头 。 但 是 ， 如 果 你 使 
用 的 是 台式 计算 机 , 可 能 需要 专门 找 个 网 络 摄像 头 , 并 将 它 连接 到 计算 机 上 。 和 之 前 的 示例 类 似 ， 
你 可 以 使 用 下 面 的 命令 下 载 并 运行 示例 程序 。 















































(QD)《 吃 豆 人 》( Pac-Man ) 是 万 代 南 梦 宫 股份 有 限 公 司 的 商标 。 
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git clone https://github.com/tensorflow/tfjs-examples.git 
cd tfjs-examples/webcam-transfer-learning 


下 面 这 个 有 趣 的 示例 会 将 你 的 网 络 摄像 头 变 成 一 个 能 玩 《 吃 豆 人 游戏 的 游戏 控制 希 。 这 是 
基于 TensorFlow.js 版 的 MobileNet 进行 迁移 学 习 实现 的 。 让 我 们 逐个 讲解 示例 程序 运行 的 3 个 阶 
段 : 数据 获取 、 对 模型 进行 迁移 学 习 ， 以 及 玩 游 戏 。 

迁移 学 习 所 需 的 数据 从 网 络 摄像 头 收集 。 示 例 程 序 在 浏览 硕 中 局 动 后 , 你 会 在 页 面 的 右 下 部 
分 看 到 4 个 黑色 的 方 框 ( 见 图 5-6 )。 它们 的 排 布 方式 就 和 任 天 等 红 日 机 手柄 上 4 个 方 回 键 的 排 布 
如 出 一 斩 。 这 4 个 方 框 对 应 模型 需要 通过 训练 实时 识别 的 4 种 类 别 。 这 4 种 类 别 分 别 对 应 吃 豆 人 
4 种 可 能 的 移动 方向 。 当 你 单 击 并 按 住 其 中 一 个 方 框 时 , 网 络 摄像 头 会 以 每 秒 20 ~ 30 帧 的 速率 采 
集 图 像 。 每 个 方 框 下 的 数学 会 提示 你 ， 当 前 已 经 为 这 个 方 框 对 应 的 控制 疾 方 回采 集 了 多 少 图 像 。 





LOSS: 0.00010 





图 5-6 吃 豆 人 迁移 学 习 示 例 ? 


为 了 尽量 保证 迁移 学 习 的 效果 ， 需 要 做 到 以 下 两 点 : (1) 为 每 个 方 回 类 别 至 少 收集 50 张 图 
像 ; (2) 在 图 像 来 集 过 程 中 ， 轻 微 晃 劲头 部 并 改变 面 回 摄像 头 的 角度 。 这 人 么 做 是 为 了 确保 收集 的 
训练 集 有 一 定 的 多 样 性 ， 从 而 增强 迁移 学 习 获 得 的 模型 的 稳健 性 。 在 本 示例 中 ， 大 多 数 人 一 般 
会 选择 如 图 5-6 所 示 的 4 种 头 部 朝 问 (上 、 下 、 左 、 右 ) 来 控制 吃 豆 人 的 移动 方 辐 , 但 其 实 可 以 
用 任何 头 部 朝 同 、 面 部 表情 ， 其 至 手势 作为 输入 图 像 ， 只 要 这 4 种 图 像 在 视觉 上 足够 不 同 ， 能 
相互 区 分 开 。 

训练 用 的 图 像 采 集 完 成 后 ， 单 击 “Train Model” 按 钮 ， 局 动迁 移 学 习 过 程 。 迁 移 学 习 只 需 几 
秒 钟 。 随 大 训练 的 推进 , 你 会 看 到 屏 大 上 显示 的 损失 值 逐 渐变 小 , 下 至 达到 一 个 非常 小 的 正 值 ( 比 
如 0.00010 ) 并 停止 改变 。 至 此 ， 迁 移 学 习 模 型 已 经 训练 完毕 ， 可 以 用 它 来 玩 游 戏 了 。 只 需 单 击 
“Play” 按 钮 ， 然 后 等 竺 程序 进入 游戏 界面 。 游 戏 开 始 后 ， 模 型 会 根据 网 络 摄像 头 捕 捉 到 的 图 像 
数据 流 进 行 实时 推 新 。UI 的 右 下 部 分 会 用 高 亮 的 黄色 字体 显示 出 当前 4 个 类 别 中 占 优势 地 位 的 

















QD 吃 豆 人 迁移 学 习 示 例 的 UI 出 自 mbo Wilson 和 Shan Carter 之 手 。 
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类 别 〈 即 迁移 学 习 模 型 给 予 最 高 概率 值 的 类 别 )。 相 应 地 ， 吃 豆 人 会 根据 该 类 别 旨 对 应 的 方 回 移 
动 ( 除非 被 填 挡 住 )。 

这 个 示例 对 那些 不 束 悉 机 融 学 习 的 人 而 言 可 能 非常 神奇 ， 但 它 其 实 只 是 利用 了 迁移 学 习 算 
法 ， 用 预 训练 的 MobileNet 来 解决 四 分 类 任务 黑 了 。 该 算法 使 用 的 图 像 数 据 量 非常 小 ， 它 们 都 来 
目 网 络 摄像 头 。 当 用 户 按 住 按钮 并 持续 收集 图 像 时 , 程序 还 给 这 些 图 像 目 动 添加 了 与 按 住 的 按钮 
对 应 的 标签 ,可 谓 非常 方便 。 得 益 于 迁移 学 习 ， 这 一 过 程 基本 不 需要 太 多 数据 或 训练 时 间 ( 它 其 
至 在 智能 手机 上 都 能 用 )。 这 就 是 示例 程序 的 大 致 工作 原理 。 如 果 想 了 解 它 背后 的 技术 细节 ， 下 
一 廊 中 我 们 会 一 起 更 深入 地 探索 其 背后 的 TensorFlowjs 代码 。 


深入 探索 吃 豆 人 迁移 学 习 

代码 清单 5-3 中 的 代码 ( 文件 路 径 为 webcam-transfer-learning/index.js ) 负责 加 载 基 模型 。 具 
体 而 言 ， 它 会 加 载 一 个 能 用 TensorFlow.js 高 效 运 行 的 MobileNet 版本。 信息 栏 5-1 具体 描述 了 如 
何 从 Python 的 Keras 深度 学 习 库 获得 MobileNet 模型 ,并 将 其 转换 为 适用 于 TensorFlow.js 的 版 本 。 
模型 加 载 完 成 后 , 可 以 使 用 getLayer () 方 法 获取 模型 中 的 某 一 层 。 通过 在 参数 中 指定 层 的 名 字 
(此 处 是 'conv_pw_13_relu' ) 来 获取 一 个 特定 的 层 。 你 可 能 还 记得 ，2.4.2 市 中 提 到 的 男 一 种 
获取 模型 的 层 的 方法 ， 即 通过 模型 的 1ayers 属性 获取 ， 因 为 它 以 JavaScript 数组 的 形式 存储 了 
模型 各 层 的 信息 。 但 这 种 方法 仅 在 模型 层 数 不 多 时 比较 易 用 ， 当 模型 层 数 更 多 时 (此 处 使 用 的 
MobileNet 模型 有 93 层 )， 这 种 方法 就 显得 很 脆弱 〈 比如 ， 未 来 给 模型 添加 更 多 层 时 ， 该 如 何 处 
理 )。 因 此 ， 只 要 MobileNet 的 维护 人 员 发 布 模型 的 新 版 本 时 保持 关键 层 的 命名 不 变 ， 基 于 层 命 
名 的 getLayer () 层 获取 方法 要 更 为 可 靠 。 


代码 清单 5-3 ”加载 MobileNet 并 基于 它 创建 一 个 “截断 ”版 的 模型 
async function loadTruncatedMobileNet() f{ 
Const mobilenet = await tf.loadLayersModel ( 
'https://storage.googleapis.com/' + 
'tfjs-models/tfjs/mobilenet v1 0.25 224/model .json'); 












































onst. 二 SG = mobilenet vetLayerl storage.google.com/tfjs- 
"Cony Bw 13 relg'}); models 下 的 URL 地 址 是 
return tf.modell(t{ 永久 的 ， 且 保持 不 变 


inputs: mobilenet.inputs, 





outputs: layer.output 


人 获取 MobileNet 的 一 个 中 间 层 。 
} 该 层 包含 对 自 定义 图 像 分 类 任务 
创建 一 个 新 模型 ， 该 模型 的 层 会 截止 于 有 用 的 特性 
'conv_pw_13_relu' 层 。 也 就 是 说 ， 原 
模型 最 后 几 层 ( 即 “ 头 部 层 ”) 会 被 截断 





言 息 栏 5-1 将 Python 的 Keras 版 模型 转换 为 JavaScript 的 TensorFlow.js 格式 
TensorFlow.js 与 Keras( 最 流行 的 Python 深度 学 习 库 之 一 ) 之 间 有 高 度 的 兼容 性 和 共通 性 。 
这 种 兼容 性 带 来 的 好 处 之 一 是 可 以 复 用 Keras 中 很 多 所 谓 的 “应 用 ”( application )。 这 些 应 用 
是 一 系列 预 训 练 的 深度 卷 积 模型 (参见 Keras 官网 中 的 Keras Applications 页 面 )。Keras 的 作者 
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特地 费心 用 大 型 数据 集 (比如 ImageNet ) 训练 出 这 些 convnet， 并 将 它们 加 入 Keras 库 中 。 这 
样 就 可 以 在 推断 和 迁移 学 习 中 复 用 它们 ， 就 像 我 们 此 处 所 做 的 一 样 。 对 Python 用 户 而 言 ， 用 
Keras 导入 应 用 只 需 一 行 代码 。 因 为 之 前 提 到 的 互通 性 ， 所 以 在 TensorFlow.js 中 使 用 这 些 应 用 
也 很 简单 。 以 下 是 所 需 执 行 的 步骤 。 
(1) 确保 Python 安装 了 tensorflowjs 包 。 最 简单 的 安装 方法 是 使 用 pip 命令 。 
pip install tensorflowjs 
(2) 在 Python 源 文件 中 或 像 ipython 这 样 可 互动 的 Python REPL 中 运行 以 下 代码 。 


import keras 

mee es 

model = keras.applications.mobilenet.MobileNet (alpha=0.25) 
tfjs.converters.save keras model (model, '/tmp/mobilnet 0.25°') 


前 两 行 会 导入 运行 所 需 的 keras 和 tensorflowjs 模块 。 第 三 行 会 将 MobileNet 加 载 进 
一 个 Python 对 轨 (model ) 中 。 此 处 可 以 使 用 和 TensorFlow.js 几乎 完全 相同 的 方式 
(model.summary () ) 打印 出 模型 的 拓扑 结构 。 从 打印 出 的 拓扑 结构 可 以 看 出 ,模型 的 最 后 一 
层 ( 输 出 层 ) 的 形状 确实 为 (None，1000) (和 JavaScript 中 的 [null，1000] 等 效 )， 反映 了 
MobileNet 训练 时 使 用 的 ImnageNet 数 据 集 的 1000 种 类 别 。 此 处 实例 化 调用 使 用 的 alpha=0.25 
参数 ， 会 选择 一 个 尺寸 较 小 的 MobileNet 版 本 。 你 可 以 根据 自己 的 需求 选择 更 大 的 alpha 值 
(比如 0.75 或 1)， 上 面 的 模型 转换 代码 同样 可 用 。 

以 上 代码 片段 的 最 后 一 行使 用 tensorflowjs 模 块 的 save_keras_model 方 法 将 模型 保存 到 
指定 的 文件 夹 下 。 在 它 执 行 完毕 后 , 在 /tmp/mobilenet 0.25 路 径 下 可 以 看 到 一 个 新 文件 来 ， 它 的 
内 容 如 下 。 


roudl narclore 
groupl-shard2of6 


groupl-shard6of6 
model .Jjson 


这 些 文件 的 格式 和 4.3.2 节 中 见 到 的 相同 。 在 4.3.2 节 的 Node.js 版 TensorFlow.js 中 ， 我 们 
使 用 类 似 的 save() 方 法 将 训练 好 的 TensorFlow.js 模型 保存 到 硬盘 上 。 因 此 ， 对 于 基于 
TensorFlow.js 的 程序 而 言 , 此 处 的 保存 格式 和 TensorFlow.js 创建 或 训练 的 模型 格式 是 完全 相同 
的 。 也 就 是 说 ,之 前 从 硬盘 加 载 模型 的 方法 此 处 也 适用 ,无 论 是 在 浏览 器 环境 中 ,还 是 在 Node.js 
环境 中 ， 只 需 调 用 tf.loadLayersModel() 方 法 ， 然 后 在 参数 中 指明 model.json 的 文件 路 径 
即 可 。 这 正 是 代码 清单 5-3 中 的 代码 所 做 的 。 

MobileNet 模型 加 载 好 之 后 ， 就 可 以 开始 执行 模型 训练 之 初 设 定 的 机 器 字 习 任务 ， 即 将 输 
入 图 像 分 类 为 InageNet 数据 集中 的 1000 个 类 别 。 注 意 , 这 个 数据 集 对 动物 ， 尤 其 是 不 同 品种 
的 猫 和 狗 ， 特 别 侧 重 ( 可 能 是 因为 互联 网 上 这 类 图 片 特别 多 )。 想 直接 用 加 载 好 的 模型 分 类 图 
像 的 读者 ， 可 以 参见 tfjs-example 代码 仓库 中 的 MobileNet 示例 : https://github.com/tensorflow/ 
tfjs-examples/tree/master/mobilenet。 然 而 ， 直 接 使 用 MobileNet 并 不 是 本 章 的 重点 。 我 们 将 例 
重 于 探索 如 何 使 用 加 载 的 MobileNet 进 行 迁移 学 习 。 
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之 前 展示 的 tfjs.converters.save_keras_modqel1() 同 样 可 以 用 来 转换 并 保存 别 的 
Keras 应 用 ， 比 如 DenseNet 和 NasNet。 在 本 章 末 尾 的 练习 (3) 中 ， 你 将 有 机 会 将 另 一 个 Keras 
应 用 (MobileNetV2 ) 转换 为 TensorFlow.js 的 格式 ， 然 后 在 浏览 器 中 加 载 它 。 除 此 之 外 ， 还 有 
必要 指出 tfjs.converters.save keras_model () 对 于 任何 Keras 中 创建 或 训练 的 模型 对 
象 都 适用 ， 而 不 仅 限 于 keras .applications 中 的 模型 。 


获得 了 conv_pw_13_relu 层 后 ,又 该 做 些 什么 呢 ? 应 该 基于 原 MobiletNet 创 建 一 个 新 模型 。 
新 模型 只 包含 原 模 型 的 从 第 一 层 ( 输入 层 ) 到 | Gony Tw 13 Yel 层 的 这 些 层 。 因为 这 可 能 是 你 
第 一 次 遇 到 这 种 模型 创建 方法 ， 所 以 此 处 会 解释 得 详细 一 些 。 在 进一步 解释 之 前 ,我 们 需要 引入 


一 个 新 概念 一 一 符号 张 量 ( symbolic tensor )。 


@ 用 符号 张 量 创 建 模型 

你 至 今 已 经 见 过 很 多 用 张 量 表 示 的 数据 。Tensor 是 TensorFlowjs 中 的 一 个 基本 数据 类 型 
(basic data type， 也 可 人 简写 为 dtype )。 张 量 对 象 存储 着 有 特定 形状 和 dtype 的 张 量 的 具体 数值 。 
它们 被 保存 在 WebGL 材质 中 ( 如 果 是 支持 WebGL 的 浏览 器 或 CPU/GPU 内 存 中 ( 如 果 是 Node.js 
环境 )。symbolicTensor 即 符号 张 量 , 是 TensorFlow.js 中 另 一 种 重要 的 类 。 它 不 存储 具体 的 值 ， 
仅 声 明 形 状 和 dtype。 可 以 将 其 理解 为 一 个 “ 插 槽 ”或 “ 占 位 符 "。 只 要 插入 张 量 信 的 形状 和 dtype 
匹配 ， 就 可 以 之 后 再 插入 具体 的 张 量 值 。 在 TensorFlow.js 中 ， 层 或 模型 对 象 可 以 有 一 个 或 多 个 输 
人 (至 此 ， 我 们 只 见 过 单个 输入 的 情况 )， 它 们 会 被 表示 为 一 个 或 多 个 符号 张 量 。 

让 我 们 用 一 个 类 比 来 帮助 你 理解 从 号 张 量 。 思考 一 下 Java 或 TypeScript 等 编程 语言 (或 其 他 
任何 你 熟悉 的 静态 类 型 语言 ) 中 的 函数 是 如 何 设 计 的 。 也 数 往往 有 一 个 或 多 个 参数 ,每 个 参数 都 
有 一 个 类 型 ,标明 了 可 传 入 函数 的 参数 类 型 。 然 而 ,参数 自身 并 不 存储 任何 具体 数值 ， 它 只 是 一 
个 占 位 符 。 符 号 张 量 就 和 函数 的 参数 类 似 ， 它 标明 了 模型 和 层 中 可 用 的 输入 张 量 类 型 ( 形状 "和 
dtype 的 组 合 )。 同 样 ， 静 态 编程 语言 的 函数 都 有 指定 的 返回 类 型 。 这 就 相当 于 模型 或 层 对 象 输出 
的 符号 张 量 。 它 们 是 模型 或 层 对 和 象 输出 的 实际 张 量 值 的 形状 和 dtype 的 “蓝图 ”。 

在 TensorFlow.js 中 , 模型 对 象 的 两 个 重要 属性 是 它 的 输入 和 输出 , 它们 都 是 符号 张 量 组 成 的 
数组 。 对 于 正好 有 一 个 输入 和 一 个 输出 的 模型 而 言 ， 两 个 数组 的 长 度 都 为 1。 类似 地 ， 层 对 象 也 
有 两 个 属性 : 输入 和 输出 ， 并 且 它 们 都 是 符号 张 量 。 符 号 张 量 也 可 以 用 来 创建 新 模型 。 这 是 
TensorFlow.js 的 男 一 种 模型 创建 方法 。 这 种 方法 和 之 前 见 过 的 方法 有 所 不 同 。 具 体 而 言 ， 之 前 的 方 
法 是 先 使 用 tf.sequential () 创 建 顺序 模型 ， 然 后 调用 aqaq () 方法 添加 层 。 新 方法 则 是 使 用 
cf.modqel () 函数 创建 模型 。 该 函数 有 两 个 必 填 的 字段 : inputs 和 outputs。 它 们 都 必须 是 符号 
张 量 (或 符号 张 量 组 成 的 数组 )，、 因 此 ， 可 以 先 从 原始 的 MobileNet 模 型 获取 符号 张 量 ,， 然 后 将 符号 
张 量 作 为 参数 输入 tf .model () 调用 中 。 结 来 就 是 一 个 由 原始 的 MobileNet 的 一 部 分 组 成 的 新 模型 。 

图 5-7 中 的 示意 图 诠释 了 这 种 模型 创建 方法 (注意 ， 此 处 为 了 简化 示意 图 ， 示 意图 中 模型 使 






















































































OQ 张 量 形状 和 符号 张 量 形状 的 一 个 区 别 是 ， 前 者 的 维度 尺寸 是 完全 确定 的 (例如 [8，32，20] )， 而 后 者 可 以 是 不 
确定 的 (例如 [nul1，nul1l，20] )。 你 之 前 已 经 在 模型 拓扑 结构 报告 的 “Output shape” 列 见 过 这 种 表示 形式 。 
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用 的 层 数 比 MobileNet 模型 实际 使 用 的 层 数 要 少 )。 此 处 需要 特别 注意 的 一 点 是 ， 从 原始 模型 获得 
并 传人 tf .model () 方 法 的 符号 张 量 并 不 是 独立 的 对 象 。 与 此 相反 , 它们 还 包含 其 所 属 层 的 信息 ， 
以 及 这 些 层 的 连接 关系 。 对 于 熟悉 图 ( graph ) 这 一 数据 结构 的 读者 而 言 ， 可 以 说 原始 模型 是 符号 
张 量 组 成 的 图 ， 而 层 则 是 连接 符号 张 量 的 边 (edge )。 通 过 将 新 模型 的 输入 和 输出 设置 为 原 模 型 的 
符号 张 量 , 实际 是 从 原 MobileNet 的 图 中 提取 一 个 子 图 。 这 个 成 为 新 模型 的 子 图 ,包含 了 MobileNet 
的 前 儿 层 (具体 而 言 ， 前 87 层 ), 而 和 镜 下 的 6 层 则 被 截断 了 。 深度 convnet 的 最 后 几 层 有 时 叫 作 头 
部 层 ( head )。tf .mogdel () 调 用 时 的 相关 操作 叫 作 截断 (truncate ) 模型 。 截 断 版 MobileNet 模型 
保留 了 特征 提取 层 ， 但 丢弃 了 头 部 层 。 为 什么 头 部 层 由 6 层 组 成 呢 ? 这 是 因为 这 些 层 只 和 
MobileNet 最 初 训练 时 要 执行 的 1000 个 类 别 的 分 类 任务 有 关 ， 对 当前 的 四 分 类 任务 并 没有 用 。 
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tf.model () re 命 出 


调用 


新 模型 






SymbolicTensor0 


(输入 ) 


SymbolicTensor1i SymbolicTensor2 


(输出 ) 


图 5-7 说 明 如 何 从 MobileNet 获得 截断 后 的 新 模型 的 示意 几 。 人 参见 代码 清单 5-3 中 对 应 的 tf .model () 调 
用 代码 。 每 层 都 有 一 个 输入 和 和 输 出， 并 且 都 是 SymbolicTensor 类 的 实例 。 在 原始 模型 中 ， 
SymbolicTensor0 是 第 一 层 和 整个 模型 的 输入 。 它 被 用 作 新 模型 的 输入 符号 张 量 。 除 此 之 外 ， 此 
处 还 将 原始 模型 的 一 个 中 间 层 ( 相当 于 conv_pw_13_relu ) 的 输出 符号 张 量 作为 新 模型 的 输出 张 
量 。 因 此 ， 新 模型 由 原始 模型 的 前 两 层 组 成 ， 如 示意 图 的 下 半 部 分 所 示 。 原 始 模 型 的 最 后 一 层 ， 即 
输出 层 , 或 者 说 头 部 层 ,， 被 舍弃 了 。 这 就 是 为 什么 像 这 样 的 模型 创建 方法 有 时 被 称 为 截断 模型 。 注 
意 ， 此 处 是 为 了 人 简化 示意 图 ， 所 以 使 用 的 层 较 少 。 代 码 清单 5-3 中 定义 的 模型 的 实际 层 数 (93 ) 要 
比 示 意图 中 所 展示 的 多 得 多 
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@ 基于 谈 入 的 迁移 学 习 

截断 版 MobileNet 的 输出 是 原始 MobileNet 模型 中 间 层 的 激活 函数 。 但 是 这 个 激活 函数 的 用 
处 是 什么 呢 ? 可 以 在 单 击 4 个 黑色 方 框 触发 的 事件 的 对 应 事件 处 理 孔 数 ( 见 代 码 清单 5-4 ) 中 找 
到 答案 。 每 当 从 网 络 摄像 头 (通过 capture() 方 法 ) 获取 新 的 输入 图 像 时 ， 程 序 都 调用 稚 断 版 
MobileNet 模 型 的 predict () 方 法 , 然后 将 输出 存 人 一 个 叫 controllerpDataset 的 对 象 中 。 该 
对 象 之 后 将 用 于 迁移 学 习 。 

但 是 应 该 如 何 理解 截断 版 MobileNet 的 输出 呢 ?” 对 于 每 个 输入 图 像 ， 模 型 的 输出 形状 都 是 
[1，7，7，256]。 这 些 输出 既 不 是 任何 分 类 问题 的 概率 ， 也 不 是 对 任何 回归 问题 的 预测 值 。 它 
是 对 输入 图 像 在 高 维 空间 的 表示 。 该 空间 共有 7x 7 x 256= 1.25 万 个 维度 。 尽 管 这 个 高 维 空间 有 
很 多 维度 ,但 它 的 维度 并 没有 原始 图 像 多 。 原 始 图 像 有 224 x 224 x 3 15 万 个 维度 。 这 是 因为 图 
像 本 身 有 224 x 224 个 维度 ， 还 有 3 个 颜色 通道 。 因 此 ， 和 截断 版 MobileNet 的 输出 可 以 说 是 对 原 
输入 图 像 的 高 效 表示 。 这 种 对 输入 的 低 维 表示 叫 作 从 入 (embedding )。 此 处 的 迁移 学 习 正 是 基于 
从 网 络 摄像 头 收集 的 4 组 图 像 的 租 入 。 


代码 清单 5-4 ”用 截断 版 MobileNet 获取 图 像 的 座 人 


ui.setExampleHandler (label => { 























| 
const img = webcam.capture() ; 使 用 tf.tidqy() 清理 中 间 张 量 ， 
controllerDataset .addqExample 比如 img。 更 多 TensorFlow.js 
truncatedMoblileNet ,bredict (lmg); 在 浏览 器 中 的 内 存 管 理 细 节 ， 参 
label ); 见 B.3 节 
ui.drawThumb (img, label).; 获取 输入 图 像 对 应 的 MobileNet 
) 的 内 部 激活 函数 的 值 


}); 


有 了 获得 网 络 摄像 涉 图 像 的 舱 入 的 方法 后 , 该 如 何 用 它们 预测 一 个 给 定 图 像 对 应 的 移动 方 癌 
呢 ? 为 此 ， 我们 需要 一 个 新 模型 。 该 模型 的 输入 是 藤 入 ,输出 是 4 个 方向 类 别 对 应 的 概率 值 。 代 
码 清 单 5-5 中 的 代码 (摘自 index.js ) 创建 了 这 个 模型 。 


代码 清单 5-5 ”用 图 像 许 入 预测 移动 方 回 


model = tf.sequentiall(t 
layers: | 
tf.layers.flattenl(t 
inputShape: truncatedMobileNet.outputs[0] .shape.slice(1) 

I 
第 一 个 (隐藏 | -SYS SnSe 扁平 化 截断 版 MobileNet 模型 输出 的 嵌入 
的 ) 密集 层 ，| DT eno re (形状 为 [7，7，2561 )。slice (1) 操 作 
已 使 用 的 是 a 'varianceScaling', 会 舍 关 第 一 维度 ( 即 批 次 维度 )， 以 便 和 
ReLU 非 线 性 | sepiasg。 true 密集 层 一 同 使 用 。 虽然 该 维度 在 输出 中 ， 
激活 函数 })， 但 并 不 是 遍 平 化 函数 的 ijnputshape 属 性 

期 待 的 形状 











Q) TensorFlowjs 用 户 的 一 个 常见 问题 是 ， 如 何 获 取 中 间 层 的 激活 机 数 。 此 处 展示 的 方法 就 是 答案 。 
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tf.layers.dense l(t 
units: NUM CLASSES, 
kernelInitializer: 'varianceScaling', 最 后 一 层 的 单元 数 应 该 和 
useBias: false, 要 预测 的 类 别 数 相同 
activation: 'softmax' 

}) 

] 

了 上) 

和 截断 版 MobileNet 相 比 ， 代 码 清单 5-5 创建 的 新 模型 的 尺寸 要 小 得 多 ， 仅 有 3 层 。 

口 输入 层 是 一 个 局 平 化 层 。 它 将 截断 版 模型 输出 的 三 维 般 入 转换 成 一 个 一 维 张 量 ， 这 样 束 

可 以 输入 后 续 的 密集 层 。 我 们 之 前 在 第 4 章 MNIST 数据 集 的 convnet 中 见 过 类 似 的 扁平 化 
层 用 法 。 此 处 需要 使 截断 版 MobileNet 的 输出 形状 ( 舍弃 批 次 维度 后 ) 和 扁平 化 层 
inputShape 指 定 的 输入 形状 匹配 。 这 是 因为 截断 版 MobileNet 输 出 的 般 入 会 输入 新 模型 中 。 

口 第 二 层 是 一 个 隐藏 层 ， 因 为 它 既 不 是 模型 的 输入 层 ， 也 不 是 模型 的 输出 层 ， 而 是 这 两 层 

之 间 的 夹层 ， 主 要 用 来 增加 模型 的 容量 。 这 和 第 3 章 遇 到 的 MLP 非常 类 似 。 它 也 是 一 个 
使 用 ReLU 作为 激活 函数 的 隐藏 密集 层 。 正 如 之 前 在 第 3 章 “ 避 免 只 增加 层 而 不 增加 非 线 
性 的 诬 误 ”这 一 厄 所 讲 的 ， 我 们 应 该 对 这 样 的 隐藏 层 及 用 非 线 性 激活 函数 。 

口 第 三 层 是 新 模型 的 最 后 一 层 ( 输出 层 )。 它 使 用 的 是 适用 于 当前 的 多 分 类 问题 ( 共 4 个 类 

别 ， 每 个 类 别 对 应 吃 豆 人 的 一 个 移动 方 回 ) 的 归 一 化 指数 激活 吨 数 。 

此 ， 我 们 实际 上 是 在 MobileNet 的 特征 提取 层 上 构建 了 一 个 MLP。 可 以 将 这 个 MLP 看 作 
MobileNet 的 新 头 部 ,尽管 特征 提取 需 ( 截断 版 的 MobileNet ) 和 新 头 部 层 是 两 个 分 开 的 模型 ( 见 
图 5-8 )。 这 种 双 模 型 的 结构 导致 不 能 直接 用 网 像 张 量 〈 形 状 为 [numExamples，224，224，31] ) 
训练 新 涉 部 ， 而 必须 用 图 像 的 航 和 人 即 截断 版 MobileNet 的 输出 ) 进行 训练 。 竺 运 的 是 ， 之 前 已 
经 准备 好 这 些 舱 入 张 量 ( 见 代 码 清单 5-4 )， 现 在 只 需要 对 这 些 般 入 张 量 调用 新 头 部 的 fit () 方 
法 。 这 部 分 代码 位 于 index.js 的 train() 困 数 中 。 因 为 它 非 常 简 单 ， 所 以 此 处 就 不 再 歼 述 了 。 

迁移 学 习 完 成 后 ， 稚 断 版 模型 和 新 头 部 将 一 起 用 来 获取 来 和 目 网 络 摄像 头 的 输入 图 像 的 概率 

值 。 你 可 以 在 index.js 的 predqict () 因数 中 找到 这 部 分 代码 ， 如 代码 清单 5-6 所 示 。 有 具体 而 言 ， 

此 处 涉及 两 个 predict () 调 用 。 第 一 个 调用 负责 用 稚 断 版 MobileNet 将 图 像 张 量 转换 成 它 的 能 人 。 

第 二 个 调用 负责 用 迁移 学 习 训 练 得 到 的 新 头 部 将 租 入 转换 成 4 个 移动 方向 对 应 的 概率 值 。 代 但 清 

单 5-6 中 的 后 续 代码 会 基于 概率 值 获取 4 个 方向 中 最 高 概率 值 的 索引 ， 然后 使 用 它 来 改变 吃 豆 人 

的 移动 方 回 , 并 更 新 UI 的 显示 状态 。 和 之 前 的 示例 一 样 ， 此 处 也 不 会 讲解 示例 中 与 UI 相关 的 代 

但 ， 因 为 它 并 不 是 机 需 学 习 算 法 的 核心 。 你 可 以 用 下 面 的 代码 清单 对 UI 代码 做 一 些 你 感 兴趣 的 
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MobileNet 


形状 : 


[5 





截 汤 后 的 MobileNet 
来 自 网 络 mm 
摄像 头 的 图 像 


新 头 部 (MLP) 
形状 : 


ana | 


,人 si 进入 吃 豆 








图 $-8 ” 吃 豆 人 迁移 学 习 示 例 使 用 的 迁移 学 习 算 法 示意 图 


代码 清单 5-6 ”迁移 学 习 后 ， 预 测 来 目 网 络 摄像 头 的 输入 图 像 表 示 的 方 回 





asvnie Tunetion Drediett) 1 从 网 络 摄像 头 
二 阁下 二 站 获取 一 帧 图 像 
while (isPredicting) { 从 筱 断 版 模型 
const predictedClass = tf.tidy(() => { 获取 骨 入 
Const img = webcam.capture(),; 
使 用 新 的 头 部 模型 将 
const embedding = truncatedMobileNet .predict( 国 匡 入 转换 为 4 个 方向 
Img ) ; 的 概率 值 
const predictions = model.predict (activation).; 
return predictions.as1lD() .argMax(); | 获取 最 大 概率 
ys 值 的 索引 
const classId = (await predictedClass.data())[0]; 将 GPU 上 存储 的 索引 
predictedClass.dispose(); 值 传 输 到 CPU 上 
ui.predictClass (class1d); 
await tf.nextFrame(); 根据 概率 值 最 大 的 方向 更 新 Ul: 
} 改变 吃 豆 人 的 移动 方向 ， 并 更 新 
ui.donePredicting(); 其 他 的 UI 状态， 比如 控制 器 上 与 


} 行为 对 应 的 “按钮 ”的 高 亮 状 态 











对 吃 豆 人 迁移 学 习 示 例 中 与 迁移 学 习 算 法 相关 的 部 分 的 讨论 到 此 结束 。 该 示例 使 用 的 算法 中 
值得 注意 的 一 点 是 , 训练 和 推 盎 过 程 都 涉及 两 个 单独 的 模型 对 象 。 这 对 于 展示 如 何 从 预 训练 模型 的 
中 间 层 获取 般 入 是 非常 有 益 的 。 这 种 策略 的 兄 一 个 优点 是 , 它 能 够 将 般 和 骏 露 出 来 ,从 而 使 后 续 的 
机 融 学 习 技 巧 可 以 直接 利用 这 些 通 人 。 这 种 技巧 的 一 个 例子 是 K 近 邻 〈 帮 nearest neighbors, KNN ) 
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算法 。 信 息 栏 5-2 会 进一步 讨论 它 。 人 然而， 直接 雄 露出 这 些 舱 入 也 是 这 种 素 略 的 软肋 ， 原 因 如 下 。 

口 它 会 使 代码 变 得 稍微 复杂 一 些 。 例 如 ， 推 新 过 程 中 需要 调用 两 次 predict () 方 法 ， 才 能 
对 一 个 输入 图 像 进 行 推 靳 。 

口 假设 我 们 想 将 模型 保存 下 来 ， 留 到 稍 后 再 使 用 ， 或 以 后 将 其 转换 到 非 TensorFlow.js 的 库 
中 使 用 。 那 么 截断 版 模型 和 新 的 头 部 模型 需要 单独 存 为 两 个 不 同 的 模型 文件 。 

口 在 一 些 特 殊 情 况 下 ， 迁 移 学 习 会 涉及 基于 基 模 型 某 些 部 分 的 反 回 传播 〈 比 如 稚 断 版 
MobileNet 的 前 儿 层 )。 如 果 基 模型 和 头 部 模型 是 两 个 不 同 的 对 象 ， 那 么 就 不 能 进行 反问 
传播 。 

下 一 节 会 展示 如 何 克 服 这 些 限 制 。 这 需要 为 迁移 学 习 创建 单个 模型 对 象 。 这 个 模型 对 象 是 端 

到 端的 ， 因 为 它 可 以 独立 将 原始 格式 的 输入 数据 转换 成 最 终 的 想 要 的 输出 。 














信息 栏 5-2 基于 岁入 的 k 近邻 分 类 

机 器 学 习 中 有 一 些 非 神经 网 络 的 策略 也 可 以 用 于 解决 分 类 问题 。 其 中 一 个 著名 的 策略 是 天 
近邻 (KNN ) 算法 。 和 神经 网 络 不 同 ，KNN 算法 不 需要 训练 ， 并 且 更 容易 理解 。 

以 下 几 身 话 就 可 以 描述 KNN 分 类 的 工作 原理 。 

(1) 选择 一 个 正 整 数 大 (比如 3)。 

(2) 收集 大 量 的 参考 样 例 ， 并 为 每 个 样 例 标注 表示 真正 分 类 的 标签 。 通 常 收 集 的 参考 样 例 
的 数量 至 少 要 比 磊 大 数 倍 。 每 一 个 样 例 都 表示 为 一 系列 的 实数 ， 或 者 向量 。 这 一 步 和 神经 网 络 
策略 中 收集 训练 样 例 是 类 似 的 。 

(3) 为 了 预测 新 输入 的 类 别 ， 首 先 要 计算 新 输入 的 向 量 表示 与 所 有 参考 样 例 的 向 量 表示 的 
距离 。 然 后 对 算出 的 距离 进行 排序 。 这 样 就 能 找到 在 向 量 空间 中 最 接近 输入 的 天 个 参考 样 例 。 
这 些 就 是 所 谓 的 “ 离 输入 最 近 的 无 个 邻居 ”( 大 近邻 算法 正 是 由 此 而 得 名 )。 

(4) 观察 离 输入 最 近 的 大 个 邻居 的 类 别 ， 选 择 其 中 最 第 出 现 的 类 别 作为 对 输入 类 别 的 预测 。 
换言之 ， 这 相当 于 让 最 近 的 丰 个 邻居 对 预测 类 别 进 行 “ 投 票 ”。 

下 图 展示 了 该 算法 的 一 个 示例 。 





二 维 般 入 空间 中 KNN 分 类 的 一 个 示例 ,在 这 个 示例 
中 , 大 = 3， 并 且 共 有 两 个 类 别 (分 别 用 三 角形 和 贺 





全 形 表 示 )。 三 角形 类 别 有 5 个 参考 样 例 ， 而 圆 形 参考 
A O 样 例 则 有 7 个 。 此 处 用 正方 形 表示 输入 样 例 。 离 输 
全 入 最 近 的 3 个 邻 拓 用 线段 与 输入 相连 。 因 为 3 个 最 


近邻 中 有 2 个 是 圆 形 ， 所 以 预测 的 输入 样 例 类 别 目 
然 就 是 圆 形 
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正如 之 前 的 描述 ，KNN 算法 的 一 个 关键 要 求 是 每 个 输入 样 例 都 用 向 量 表 示 。 由 于 如 下 两 
个 原因 , 之 前 从 截断 版 MobileNet 获得 的 上 诅 入 正 是 这 种 向 量 表 示 的 好 选择 。 首 先 ， 它 们 的 维度 
通常 比 原 输入 的 维度 更 低 ， 因 此 距离 计算 的 耗 时 和 存储 空间 占用 都 会 更 少 。 其 次 , 识 入 通常 能 
够 捕捉 到 原 输 入 中 较为 重要 的 特征 ( 比如 图 像 中 的 重要 几何 特征 ， 见 图 4-6 )， 忽 略 那 些 不 重 
要 的 特征 (比如 亮度 和 尺寸 )。 这 是 因为 它们 用 于 训练 的 分 类 数据 集 通常 规模 足够 大 。 在 有 些 
场景 中 ， 即 使 原 输 入 并 不 是 用 数字 表示 的 (比如 第 9 章 的 词 诅 入 ), 说 入 也 能 获得 其 向 量 表示 。 

和 神经 网 路 策略 相 比 ，KNN 无 须 任 何 训练 。 当 参考 样 例 数量 不 太 大 、 输 入 维度 不 太 高 时 ， 
KNN 比 用 神经 网 络 进行 训练 和 推断 的 计算 效率 更 高 。 

然而 ，KNN 推断 在 数据 量 上 的 可 扩展 性 并 不 太 好 。 具 体 而 言 ， 如 果 有 N 个 参考 样 例 ，KNN 
分 类 器 需要 对 每 个 输入 计算 NW 次 距离 ， 才 能 做 出 预测 。? 当 NW 变 得 很 大 时 ，KNN 的 计算 量 就 会 过 
大 。 相 较 而 言 ， 神 经 网 络 推断 涉及 的 计算 量 并 不 会 随 训 练 集 的 增长 而 发 生变 化 。 神 经 网 络 训练 完 
成 后 ， 就 不 再 受到 训练 样 例 数量 的 影响 了 。 网 络 正 向 传播 的 计算 量 只 和 网 络 的 拓扑 结构 有 关 。 

如 果 你 想 在 自己 的 应 用 中 使 用 KNN， 可 以 参考 基于 TensorFlow.js 的 、 用 WebGL 加 速 的 
KNN 库 ， 参 见 npm 网 站 的 KNN Classifier 页 面 。 





a 尺 管 如 此 , 但 学 术 人 研究 领域 也 有 优化 KNN 算法 的 尝试 。 已 有 人 研究 尝试 设计 与 KNN 近似 , 但 更 快 、 可 扩展 性 
更 佳 的 算法 ， 参 见 Gal Yona 的 文章 “Fast Near-Duplicate Image Search Using Locality Sensitive Hashing”。 


5.1.3 用 微调 最 大 化 迁移 学 习 的 收益 : 音频 示例 


前 几 节 中 的 迁移 学 习 示 例 使 用 的 都 是 视觉 上 的 输入 。 本 示例 将 说 明 表示 为 时 频谱 的 音频 数据 
也 可 以 进行 迁移 学 习 。4.4 市 中 已 经 介绍 过 如 何 用 convnet 识 别 口 令 ( 即 独立 、 人 简短 的 语 首 单词 )。 
我 们 构建 的 口令 识别 需 只 能 识别 18 个 不 同 的 单词 (例如 “one”“two”“up”“down”)。 如果 想 训 
练 识别 硕 识 别 其 他 的 单词 ， 该 怎么 办 ? 例如 ， 你 的 应 用 程序 可 能 需要 识别 “red” 或 “blue” 这 样 
特定 的 单词 ， 甚 至 是 用 户 目 己 选 择 的 单词 。 还 有 的 应 用 程序 可 能 是 为 非 英 语 用 户 设计 的 。 这 些 都 
是 迁移 学 习 适 用 的 经 典 场 景 。 虽 然 可 以 用 手头 的 少量 数据 从 头 训练 模型 , 但 如 果 能 用 预 训练 模型 
作为 基础 进行 训练 ， 就 会 省 去 很 大 一 部 分 时 间 和 算 力 消耗 ， 同 时 还 能 得 到 更 高 的 准确 率 。 























1. 如 何 对 口令 识别 器 进行 迁移 学 习 

在 进一步 介绍 迁移 学 习 在 本 示例 程序 中 的 工作 机 制 之 前 ， 最 好 先 鸭 悉 一 下 如 何 通过 UI 使 用 
迁移 学 习 功 能 。 使 用 UI 之 前 ， 先 确保 你 的 计算 机 配 有 音频 输入 设备 ( 即 麦克 风 )， 并 且 不 在 静音 
状态 。 然 后 使 用 以 下 命令 下 载 并 运行 示例 程序 ( 步骤 和 4.4 节 中 的 “时 频谱 : 将 音频 表示 为 图 像 ” 
相同 )。 

git clone https:7/github.com tensortlow/ 上 人 Emooele ga 

cd tfjs-models/speech-commands 

yarn && yarn publish-local 


cd demo 
yarn && yarn link-local && yarn watch 
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Web 应 用 程序 启动 后 ， 如 果 浏 览 右 请 你 授权 读 取 麦克 风 数 据 ， 选 择 人 允许。 图 5-9 展示 了 示例 
应 用 程序 的 截图 。 程序 刚 启 动 时 ,示例 页 面 会 调用 tf.1loadLayersModel () 方 法 从 一 个 HTTPS 
链接 上 自动 加 载 预 训练 的 口令 识别 模型 。 模 型 加 载 后 ,会 启用 “Start” 和 “Enter transfer words” 按 
钮 。 如 采 单 击 “Start ”按钮 ， 示 例 程 序 会 进入 推 肝 模式， 并 以 连 乡 的 方式 检测 18 个 基础 单词 (如 
图 5-9 所 示 )。 程序 每 检测 到 一 个 单词 ， 其 对 应 的 单词 边框 就 会 进入 高 之 状态 。 然 而， 如 果 单 击 
“Enter transfer words” 按 钮 ， 屏 友 上 会 出 现 很 多 和 额外 的 按钮 。 这 些 按钮 来 日 右 侧 的 文本 输入 框 ， 
输入 框 用 逗号 分 隐 开 各 个 单词 。 文 本 框 中 默认 的 几 个 单词 是 “noise”“red” 和 “green”。 这 些 单 
词 是 迁移 学 习 模 型 的 训练 目标 。 但是， 如 果 你 想 训 练 模型 识别 别 的 单词 也 可 以 任意 修改 输入 框 
中 的 单词 ， 不 过 要 保持 “noise” 不 变 。“noise” 是 一 个 特殊 的 类 别 ， 它 表示 待 收集 的 背景 噪声 样 
本 。 这 些 样本 不 包含 任何 语音 。 这 让 迁移 学 习 可 以 区 分 什么 时 候 有 人 说 话 ， 什 么 时 候 是 安静 状态 
( 硼 景 噪声 )。 当 你 单 击 这 些 按 钮 时 ,程序 会 用 麦克 风 记 录 1 秒 钟 长 的 音频 片段 ， 然 后 将 它 对 应 的 
时 频谱 显示 在 按钮 的 右 侧 。 按 钮 中 的 数字 会 显示 当前 已 为 该 单词 收集 了 多 少 样 例 。 












































芭 -_ 





图 5-9 口令 识别 示例 程序 的 迁移 学 习 功 能 示例 。 此 处 ， 用 户 输 入 了 一 组 自 定义 的 单词 
用 作 迁 移 学 习 : “feel “seal “veal” “zeal” ， 以 及 必须 保留 的 “noise” 类 别 。 
除 此 之 外 ， 用 户 为 每 个 单词 和 噪声 类 别 收 集 了 20 个 样 例 


就 和 其 他 机 各 学 习 问 题 一 样 ， 收 集 的 数据 越 多 ( 时 间 和 资源 允许 的 情况 下 )， 训 练 出 的 模型 
就 越 好 。 在 这 个 示例 应 用 中 ,需要 为 每 个 单词 类 别 收集 至 少 8 个 样 例 。 如 果 你 不 想 或 不 能 目 己 收 
集 这 些 音频 样本 ,可 以 从 本 书 图 灵 社 区 页 面 “ 随 书 下 载 ” 处 下 载 预 完 收集 的 数据 集 ( 文件 大 小 约 
9MB )。 下 载 完成 后 ， 可 以 通过 单 击 UI 中 “DatasetIO” 区 域 的 “upload dataset ”按钮 ， 将 数据 集 
上 上传 到 应 用 程序 。 
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无 论 是 使 用 上 传 的 数据 集 还 是 自己 收集 的 首 频 ， 数 据 集 准备 就 绕 后 ， 程 序 都 会 启用 “Start 
Transfer Learning” 按 钮 。 你 可 以 单 击 该 按钮 启动 迁移 学 习 模 型 的 训练 。 应 用 程序 会 对 收集 的 首 
频 的 时 频谱 数据 进行 3 : 1 的 划分 。 也 就 是 说 ，75% 的 数据 会 用 作 训 练 集 ， 剩 下 的 25% 会 用 作 验 
证 集 。” 随 着 迁移 学 习 的 进行 ， 应 用 程序 会 实时 显示 出 训练 集 与 验证 集 的 损失 和 准确 率 。 训 练 完 
成 后 ,， 单 击 “Start” 按 钮 就 可 以 启动 对 迁移 和 学习 新 增 单词 的 连续 识别 。 你 可 以 通过 实时 识别 耳 观 
地 评估 迁移 学 习 模 型 的 准确 率 。 你 可 以 试验 不 同 的 单词 组 合 , 并 观察 它们 如 何 有 影响 迁移 学 习 后 得 
到 的 准确 率 。 默 认 的 单词 组 合 (“red” 和 “green”) 中 的 两 个 单词 的 发 音 非 常 不 同 。 比 如 ， 它 们 
开头 的 辅 首 (“r” 和 “g”)、 元 首 (“e” 和 “ee”)， 以 及 结尾 的 辅音 (“d” 和 “n”) 都 非常 不 同 。 
因此 ， 在 迁移 学 习 的 尾声 ,模型 应 该 能 达到 接近 完美 的 验证 集 准确 率 。 前 提 是 ,每 个 单词 收集 的 
样 例 数量 足够 〈 比 如 大 于 等 于 8 )， 训 练 的 轮 次 不 太 少 ( 避免 欠 拟 合 ) 也 不 太 多 〈 避 人 锡 过 拟 合 ， 
参见 第 8 章 ) 

如 果 要 增加 模型 迁移 学 习 的 难度 , 可 以 使 用 声音 上 更 容易 混 消 的 单词 或 增加 单词 量 。 这 正 是 
我 们 在 图 5-9 中 的 示例 中 所 做 的 。 该 示例 使 用 了 4 个 发 首 非 常 相似 的 单词 :“feel”“seal”“veal” 
“zeal”。 这 些 单词 中 间 的 元 音 和 结尾 的 辅音 完全 相同 ， 开 始 的 辅 首 则 非常 接近 。 即 使 是 人 在 听 ， 
如 有 果 注 意 力 不 人 够 集中 ,或 者 是 在 信号 不 好 的 电话 的 男 一 问 收 昕 这 些 单词 ,也 很 容易 混 清 这些 单词 。 
从 图 右 下 角 的 准确 率 曲 线 可 以 看 出 , 模型 很 难 达 到 90% 的 准确 率 。 要 想 有 所 改进 , 进行 过 初步 迁 
移 学 习 后 ， 还 逢 要 加 上 一 个 窜 外 的 迁移 学 习 技 巧 ， 即 微调 。 


2. 进一步 探索 迁移 学 习 中 的 微调 技巧 

微调 ( fine-tuning ) 可 以 使 模型 达到 仅 靠 训练 迁移 模型 新 头 部 无 法 达到 的 准确 率 。 如 果 你 想 
知道 微调 技巧 的 工作 原理 ， 下 一 方 中 会 更 详细 地 人 解释。 虽然 有 一 些 新 的 技术 点 要 消化 , 但 弄 慌 微 
调 技 巧 可 以 加 深 你 对 迁移 学 习 以 及 相关 TensorFlow.js 代码 实现 的 理解 ， 因 此 这 是 值得 的 。 


@ 创建 一 个 新 的 迁移 学 习 模 型 

首先 ,我 们 需要 理解 语音 迁移 学 习 程 序 是 如 何 创 建 用 于 迁移 学 习 的 模型 的 。 代 码 清 单 5-7 中 
的 代码 (摘自 speech-commands/src/browser fft recognizer.ts ) 从 口令 识别 基 模 型 ( 即 4.4 节 “ 时 
频谱 ; 将 音频 表示 为 图 像 ” 中 学 过 的 模型 ) 创建 出 一 个 新 模型 。 它 首先 会 找到 模型 的 倒数 第 二 个 
密集 层 ， 并 获取 它 的 输出 符号 张 量 ( 即 代 码 中 的 truncatedBaseOutput )。 然 后 ， 它 会 创建 一 
个 新 的 仅 拥有 一 个 密集 层 的 头 部 模型 。 这 个 新 的 头 部 模型 的 输入 形状 和 truncatedBaseOutput 
符 写 张 量 相 匹配 ， 并 且 它 的 输出 形状 和 迁移 数据 集中 的 单词 数量 相同 (图 5-9 中 有 5 个 )。 密集 
层 使 用 归 一 化 指数 冰 数 作为 激活 图 数 ， 因 为 它 非 浓 适 合 多 分 类 任务 。( 注意 ， 下 面 展 示 的 代码 和 
书 中 的 其 他 代码 不 同 ， 因 其 使 用 的 是 TypeScript。 如 果 你 对 TypeScript 不 熟悉 ,可 以 忽略 像 void 
和 tf.SymbolicTensor 这 样 的 类 型 标注 。) 
























































J 这 就 是 为 什么 示例 程序 要 求 为 每 个 单词 收集 至 少 8 个 样本 。 如 果 不 这 么 做 的 话 ， 每 个 单词 的 验证 集 的 样本 数量 就 
会 过 少 ， 导 致 损失 和 准确 率 的 估计 变 得 不 可 靠 。 
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代码 清单 5-7 创建 单个 用 于 迁移 学 习 的 tf .Model 模型 对 象 ” 
private createTransferModelFromBaseModel(): Vold f{ 
const layers = this.baseModel.layers; 





let layerindex = layers.length - 2; 


while (layerIindex >= 0) { 
if (layers[layerindex] .getClassName() .toLowerCase() === 'dense') 1{ 
break; 
找到 基 模 型 的 倒数 
layerIindex--; 第 二 个 密集 层 
} 





if (layerindex < 0) f{ 
throw new Error('Cannot find a hidden dense layer in the base model.'); 








本 secondLastBaseDenseLayer = 获取 在 之 后 的 微调 阶段 不 会 固化 
J 层 〈( 见 代码 清单 5-8) 
layers[layerIindex]; 的 层 〈 见 代码 清音 
const truncatedBaseOutput = layers[llayerindex|] .output as EE 
tf.SymbolicTensor; 攻取 付 写 张 量 


this.transferHead = tf.layers.densel(lt{ 5 


units: this.words.length, 


activation: 'softmax', 为 模型 创建 
inputShape: truncatedBaseOutput.shape.slice(1) 新 的 头 部 层 


})); 
const transferOutput = 
this.transferHead.apply (truncatedBaseOutput) as tf.SymbolicTensor; 
this.model = 
tf.model({inputs: this.baseModel.inputs, outputs: transferOutput}).; 








】 
使 用 tf .model() API 创建 一 个 用 于 


将 新 的 头 部 层 “ 应 用 到 ”截断 版 基 模 型 迁移 学 习 的 新 模型 . 它 的 参数 将 原 模 型 
的 输出 上 ， 从 而 获得 新 模型 的 最 终 输 的 输入 设 为 新 模型 的 输入 , 并 将 新 的 符 
出 。 最 终 输出 会 表示 为 符号 张 量 号 张 量 作为 它 的 输出 








此 处 使 用 新 头 部 的 方法 非常 新 神 : 程序 用 truncatedBaseOutput 符号 变量 作为 参数 ， 调 
用 了 新 头 部 的 apply () 方 法 。 之 所 以 可 以 调用 该 方法 是 因为 TensorFlow.js 中 的 所 有 层 对 象 和 模 
型 对 象 都 定义 了 apply () 方 法 。 那 么 apply () 有 何 用 处 呢 ? 顾名思义 ， 它 会 将 新 的 头 部 “应 用 
到 ”输入 上 ， 获 得 一 个 新 的 输出 。 以 下 几 点 需要 特别 注意 。 
口 此 处 提 太 的 输入 和 输出 都 是 符号 张 量 一 一 它们 是 具体 张 量 值 的 占 位 符 。 
口 图 5-10 以 示意 图 的 形式 前 释 了 这 一 点 : 输入 的 符号 张 量 (truncatedBaseOutput ) 不 是 
独立 的 实体 ， 而 是 基 模 型 倒数 第 二 个 密集 层 的 输出 。 该 密集 层 的 输入 来 自 上 一 层 ， 上 一 层 
的 输入 来 日 更 上 一 层 ， 以 此 类 推 。 因此 ， truncatedBaseOutput 包含 了 其 模型 的 子 图 。 
具体 而 言 ， 它 包含 的 是 基 模 型 的 输入 和 倒数 第 二 个 密集 层 的 输出 之 间 的 子 图 。 换 言 之 ， 它 
是 基 模 型 全 图 除去 倒数 第 二 个 密集 层 之 后 的 部 分 的 结果 。 因 此 ， 总 体 来 看 ，apply () 调用 
的 输出 包含 了 一 张 新 的 图 ， 该 图 由 上 文 提 到 的 子 图 和 新 的 密集 层 组 成 。 该 图 的 输出 和 原 输 












































QD 关于 这 个 代码 清单 有 两 点 需要 注意 : (1) 这 段 代 码 是 用 TypeScript 编写 的 ， 因 为 它 摘自 @tensorflow-models/ 
speech-commandslibrary 这 个 可 复 用 的 库 ; (2) 出 于 简化 的 目的 ， 已 经 从 中 移 除 了 部 分 异 稼 处 理 的 代码 。 
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入 会 一 同 作为 参数 被 tf .model () 函数 调用 ， 橘 数 调用 完成 后 会 输出 一 个 新 模型 。 除 了 它 
的 头 部 被 替换 为 新 的 密集 层 外 ， 新 模型 和 基 模 型 完全 相同 ( 见 图 5-10 的 下 半 部 分 )。 


truncatedBaseOutput transferOutput 








基 模 型 (this.lbaseModel) 2 transferHead 
局 平 化 层 ” 密集 层 1 





Fr 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 -| 


tf.model() 


调用 全 入 全 出 





图 5-10 创建 用 于 迁移 学 习 的 新 的 、 端 到 端 模型 的 示意 图 。 该 图 应 该 和 代码 清单 5-7 一 同 理解 。 图 中 一 些 与 
代码 清单 5-7 中 变量 对 应 的 部 分 已 用 等 宽 字 体 标 出 。 第 1 步 : 获取 基 模 型 倒数 第 二 个 密集 层 输 出 的 
符号 张 量 〈 用 黑色 粗 箭头 标 出 )， 第 3 步 将 用 到 它 。 第 2 步 : 创建 一 个 新 的 头 部 模型 ， 它 仪 由 单个 
输出 密集 层 (标记 为 “密集 层 3”) 组 成 。 第 3 步 : 用 第 1 步 得 到 的 符号 张 量 作为 参数 ， 调 用 新 头 
部 模型 的 apply () 方 法 ， 该 调用 会 将 新 头 部 模型 的 输入 和 第 1 步 中 截断 后 的 基 模 型 连接 起 来 。 第 
4 步 : apply () 调用 的 返回 值 和 基 模 型 的 输入 符号 张 量 一 同 作 为 参数 , 用 于 对 tf .model () 困 数 的 
调用 中 ,该 调用 会 返回 一 个 新 模型 ， 该 模型 包含 了 原 模型 从 第 一 层 至 倒数 第 二 层 的 所 有 层 ， 以 及 
新 头 部 模型 的 密集 层 。 这 相当 于 将 原 模 型 的 旧 头 部 蔡 换 成 新 头 部 ， 为 之 后 对 迁移 学 习 使 用 的 新 数 
据 进行 后 续 训 练 做 好 了 准备 。 注 意 ， 此 处 为 了 人 简化 示意 图 ， 洽 上 略 了 口令 识别 模型 实际 包含 的 一 些 
层 ( 准确 地 说 是 7 层 )。 图 中 有 阴影 的 层 是 可 训练 的 ， 日 色 的 层 是 不 可 训练 的 
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注意 ， 此 处 使 用 的 策略 和 5.1.2 节 中 组 合 模 型 的 策略 并 不 相同 。5.1.2 节 中 创建 的 基 模 型 和 新 
头 部 模型 是 两 个 分 开 的 模型 实例 , 因此 对 每 个 输入 样 例 进 行 推 其 时 会 涉及 两 个 preqict () 调 用 。 
此 处 ， 新 模型 预期 的 输入 和 基 模 型 预期 的 音频 输入 的 时 频谱 完全 相同 。 同 时 ， 新 模型 会 直接 输出 
新 单词 的 概率 值 。 每 次 推断 只 涉及 一 个 predict () 调用， 因此 流程 更 精简 。 通 过 将 所 有 层 封装 
到 一 个 模型 中 , 这 个 新 策略 会 为 应 用 程序 带 来 一 个 额外 的 重大 优势 : 它 使 我 们 可 以 对 任何 一 个 涉 
及 新 单词 识别 的 神经 层 进行 反问 传播 。 这 意味 着 我 们 可 以 对 模型 进行 微调 , 而 这 正 是 下 一 市 中 将 
要 详细 介绍 的 。 


@ 通过 解除 层 固 化 对 模型 进行 微调 

在 迁移 学 习 中 ， 微 调 是 对 模型 初步 训练 后 的 一 个 可 选 步 又 。 在 训练 的 初期 ， 所 有 来 目 基 模 
型 的 层 都 会 被 固化 ( 即将 trainable 属性 设 为 false )， 权 重 更 新 只 发 生 在 头 部 层 。 我 们 在 
本 章 前 半 部 分 的 minist 数据 集 迁 移 学 习 示 例 和 吃 豆 人 迁移 学 习 示 例 中 见 过 这 种 训练 方法 。 在 
微调 阶段 ， 基 模型 的 部 分 层 会 解除 固化 ( 即将 trainaple 属性 设 为 true )， 然 后 在 迁移 数据 
上 进行 再 次 训练 。 图 5-11 中 的 示意 图 展示 了 如 何 解 除 层 固化 。 代 码 清单 5-8 中 的 代码 ( 摘 目 
speech-commands/src/browser_ fft recognizer.ts ) 展示 了 口令 识别 示例 是 如 何 使 用 TensorFlow.js 
实现 这 一 流程 的 。 


























a. 初始 阶段 b. 微调 阶段 
conv2d 局 平 化 层 ”密集 层 1 





固化 层 可 训练 层 固化 层 可 训练 层 


图 5-11 展示 迁移 学 习 初 始 阶段 (图 5-11a ) 和 微调 阶段 (图 5-11b )， 各 层 固化 和 解除 
固化 〈 变 为 可 训练 ) 的 状态 。 这 正 是 代码 清单 5-8 中 的 代码 所 做 的 。 注 意 , 密 
集 层 1 之 后 是 密集 层 3， 而 不 是 密集 层 2 ( 基 模 型 的 原 输出 层 )。 这 是 因为 密 
集 层 2 已 经 在 迁移 学 习 的 第 1 步 中 被 截断 了 ( 见 图 5-10 ) 





代码 清单 5-8 ”迁移 学 习 初 期 和 微调 阶段 ~ 
async train(config?: TransferLearnConfig): 
Promise<tf.History| [tf.History, tf.History|]> { 
if (config == null) { 
config = {}; 


} 








中 为 了 专注 于 对 算法 关键 部 分 的 讲解 ,已 经 移 除了 部 分 负责 异常 处 理 的 代码 。 





调用 
Model .fit() 
启动 初步 迁移 


学 习 








为 了 微调 , 解 
除 对 基 模 型 
倒数 第 二 层 
的 固化 ( 即 截 
断 版 基 模 型 
的 最 后 一 层 ) 


A 
外 
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if (this.model == null) { 
this.createTransferModelFromBaseModel (); 确保 截断 版 基 模 型 的 所 有 
b 层 ， 包 括 之 后 需要 微调 的 
/ 层 ， 都 已 固化 
this.secondLastBaseDenseLayer.trainable = false; 
this.model.compilel(t 
loss: 'categoricalCrossentropy', pi a 
编译 模型 J 
optimizer: Config.ontimizer|| god™, 0 进行 初步 
metrics: ['acc'] 迁移 学 习 
}); 
const {xs, ys} = this.collectTransferDataAsTensors(); 


let trainxXs: tf.Tensor; 
let trainYs: tf.Tensor; 


Jet valData: [tf.Tensor, tf.Tensor]; 
try { 





如 果 配 置 中 启用 了 valiqdationSplit,， 
if (config.validationSplit != null) { 那么 按照 均衡 的 比例 将 迁移 学 习 的 数据 

const splits = balancedTrainValSplitl( 划分 为 训练 集 和 验证 集 

xs, ys, Config.validationSplit).; 

trainXs = splits.trainxs; 

trainYs splits.trainYs; 

valData = [splits.valXs, splits.valYsl]; 
} else { 

trainXs = xs; 


trainYs = ys; 


const history = await this.model.fit (trainxs, trainYs, { 
epochs: config.epochs == null ? 20 : config.epochs, 
validationData: valData, 
batchSize: config.batchSize, 
callbacks: config.callback == null ? null : [config.callbackl] 
让 


If (config.fineTuningEpochs != null && config.fineTuningEpochs > 0) { 
this.secondLastBaseDenseLayer.trainable = 


pF 


LUG? 





本 


const fineTuningOptimizer: string | tf.Optimizer = 
config.fineTuningOptimizer == null ? 'sgd' 





config.fineTuningOptimizer; 
this.model.compilel(t 


loss:'categoricalCrossentropy',， | 解除 固化 后 ， 
optimizer: fineTuningOptimizer., 重新 编译 模型 
metrics: ['acc'] (否则 解除 固 
1 化 不 会 生效 ) 
const fineTuningHistory = await this.model.fit(trainxs, trainYs, { 


epochs: config.fineTuningEpochs, 
validationData: valData, 


batchSize: config.batchSize, 调用 Model .fit() 
callbacks: config.fineTuningCallback == null ? 启动 微调 阶段 
null 


[config.fineTuningCallback] 
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return [history, fineTuningHistoryl]; 
} else { 
return history; 
} 
} finally { 
tf.dispose([xs, ys, trainxXs, trainYs, valDatal); 
} 
} 


代码 清单 5-8 中 的 代码 有 以 下 几 点 需要 特别 注意 。 

口 每 次 通过 改变 trainable 属性 固化 某 层 ,或 解除 某 层 的 固化 时 ,都 必须 再 次 调用 模型 的 
compile() 方 法 ， 否则 改变 不 会 生效 。 我 们 在 讲解 5.1.1 节 中 的 MNIST 数据 集 迁 移 学 习 
示例 中 也 曾 强 调 过 这 一 点 。 

口 此 处 保留 了 一 部 分 训练 集 的 数据 用 于 验证 集 。 这 是 为 了 确保 损失 和 准确 率 能 正确 反映 模 
型 在 训练 过 程 中 未 见 过 的 数据 上 的 性 能 。 然 而 ， 此 处 使 用 的 验证 集 划 分 方法 和 之 前 见 到 
有 所 不 同 ， 因 此 值得 特别 讲解 一 下 。 

在 MNIST 数据 集 的 convnet 示例 中 (代码 清单 4-2 )， 我 们 使 用 valiqdationSplit 参数 
让 Model .fit() 预 留 最 后 15% ~ 20% 的 数据 用 于 验证 集 。 同 样 的 茉 略 在 此 处 并 不 适用 。 
为 何如 此 ?因为 此 处 的 训练 集 和 之 前 示例 中 的 相 比 要 小 得 多 。 因 此 ， 如 果 剃 目地 将 最 后 
的 几 个 样 例 划 为 验证 集 ， 那 么 非常 可 能 造成 一 部 分 单词 在 验证 集中 数量 相对 过 少 。 例 如 ， 
假设 已 为 “feel” “seal” “veal” “zeal” 这 4 个 单词 每 个 收集 了 8 个 样 例 ， 并 选择 全 部 32 
个 样 例 中 25% 的 样 例 (8 个 样 例 ) 用 作 验 证 集 。 那 么 平均 而 言 ， 每 个 单词 在 验证 集中 只 有 
两 个 样 例 。 因 为 选择 的 随机 性 ， 所 以 一 些 单词 在 验证 集中 最 后 很 可 能 只 有 一 个 样 例 ， 甚 
至 完全 没有 样 例 ! 显然 ， 如 果 这 种 情况 发 生 ， 那 么 验证 集 就 不 是 很 适合 度量 模型 的 准确 
率 。 这 就 是 为 什么 此 处 要 采用 一 个 目 定义 的 也 数 ( 代码 清单 5-8 中 的 palancedTrain- 
ValSplit )。 该 孔 数 会 考虑 到 每 个 单词 真正 的 标签 ， 并 确保 各 个 单词 在 训练 集 和 验证 集 
上 都 有 数量 均衡 的 样 例 。 如 果 你 手头 的 迁移 学 习 应 用 程序 使 用 的 数据 集 也 非常 小 ， 那 就 
可 以 这 么 做 。 
那么 , 微调 到 底 有 何 用 呢 ? 在 初步 进行 迁移 学 习 后 , 它 提供 了 什么 额外 的 价值 呢 ? 为 了 说 明 
它 的 作用 , 我 们 将 模型 训练 初期 和 微调 阶段 的 损失 和 准确 率 曲 线 拼 接 在 一 起 , 作为 连续 的 曲线 绘 
制 在 图 5-12a 中 。 该 迁移 学 习 数 据 集 和 图 5-9 使 用 的 是 相同 的 4 个 单词 。 每 条 曲线 的 前 100 个 轮 
次 对 应 训练 初期 后 300 个 轮 次 对 应 微调 阶段 。 可 以 看 到 ， 在 前 100 个 轮 次 训练 的 尾声 ， 准 确 率 
曲线 开始 趋 于 平缓 , 进入 边际 效应 递减 领域 验证 集 上 的 准确 率 最 终 在 初期 止 于 约 84%。( 注意 ， 
此 时 如 有 果 只 看 训练 集 上 的 准确 率 曲线 是 非常 有 误导 性 的 ， 因 为 它 轻 轻 松 松 地 就 达到 了 接近 100% 
的 准确 率 。) 然而 ， 在 后 300 个 训练 轮 次 ， 通 过 解除 部 分 密集 层 的 固化 ， 重 新 编译 模型 ， 然 后 局 
动 训 练 的 微调 阶段 ,还 能 进一步 提高 模型 的 准确 率 。 这 么 做 使 验证 集 准 确 率 突破 瓶 令 ， 继 续 升 至 
90% ~ 92%。 这 结果 还 不 错 一 一 相 比 于 微调 前 ， 准 确 率 提 升 了 『 6% ~ 8%。 验 证 集 的 损失 曲线 上 也 
可 以 看 到 类 似 的 现象 。 
为 了 说 明 采 用 微调 技巧 的 迁移 学 习 相 比 于 未 采用 该 技巧 的 迁移 学 习 的 优势 , 图 5-12b 中 展示 
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了 在 不 对 基 模 型 的 顶部 数 层 使 用 微调 技巧 的 情况 下 ， 训 练 模型 400 个 轮 次 〈 总 轮 次 和 之 前 相同 ) 
会 发 生 什么 。 在 100 个 轮 次 时 ,损失 和 准确 率 曲 线 并 没有 出 现 如 图 5-12a 中 微调 造成 的 “拐点 ”。 
相反 ， 损 失 和 准确 率 变 化 非 第 平 经， 最 后 收敛 于 较 差 的 值 。 
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图 5-12 (a) 迁移 学 习 训 练 初期 和 微调 阶段 (图 中 的 FT ) 的 损失 和 准 硝 率 曲 线 示 例 。 注 意 
训练 初期 和 微调 阶段 连接 处 的 拐点 。 微 调 会 加 速 损 失 值 的 减少 、 准 确 率 的 增加 。 
这 是 因为 解除 基 模 型 顶部 数 层 的 固化 后 , 会 增加 模型 的 容量 , 从 而 更 能 适应 迁移 
学 习 数 据 中 的 独特 特征 。(b) 不 使 用 微调 ， 训 练 迁移 学 习 模型 同等 轮 次 〈400 个 
轮 次 ) 得 到 的 损失 和 准确 率 曲 线 。 注意, 在 未 使 用 微调 的 情况 下 ,验证 集 收 敛 时 
的 损失 值 较 图 5-12a 更 高 ， 而 准确 率 则 更 低 。 在 训练 总 轮 次 相同 的 前 担 下 ， 有 微 
调 的 最 终 准确 率 约 为 0.9， 而 无 微调 则 停滞 在 约 0.85 














所 以 为 什么 微调 有 用 呢 ? 可 以 理解 为 微调 增加 了 模型 的 容量 。 解 除 基 模型 项 部 数 层 的 固化 
后 ， 相 较 于 训练 初期 而 言 ， 迁移 学 习 模 型 可 以 在 更 高 维 的 参数 空间 最 小 化 损失 兄 数 。 这 和 给 神经 
网 络 增加 隐藏 层 的 原理 相似 。 解 除 固化 的 密集 层 原 本 是 针对 原始 数据 集 ( 即 包 含 “one”“two” 
“yes”“no” 等 单词 的 数据 集 ) 优化 的 。 它 们 对 新 的 迁移 学 习 数 据 集 不 一 定 是 最 优 的 。 这 是 因为 ， 
帮助 模型 区 分 原单 词 的 内 部 表示 和 区 分 新 迁移 学 习 数 据 的 内 部 表示 有 所 不 同 。 通 过 让 这 些 参数 进 
一 步 对 迁移 学 习 单 词 进行 优化 〈 即 微调 )， 使 得 模型 的 内 部 表示 针对 新 单词 进行 了 优化 。 因 此 ， 
迁移 学 习 单 词 在 验证 集 上 的 准确 率 得 到 了 提升 。 注 意 ， 当 迁移 学 习 任 务 很 难 时 ， 这 种 提升 会 更 为 
明显 (如 之 前 示例 中 非常 容易 混 消 的 4 个 单词 “feel “seal” “veal” “zeal”)。 当 任 务 较 人 简单 时 (如 
更 容易 区 分 的 单词 “red” 和 “green”)， 验 证 集 仅 徘 初期 训练 就 能 达到 接近 100% 的 准确 率 。 
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你 可 能 会 问 : 此 处 只 解除 了 基 模 型 中 一 层 的 固化 , 解除 更 多 层 的 固化 是 否 会 改进 训练 结 采 ? 
简单 的 答案 是 ， 要 看 情况 。 虽 然 解 除 更 多 层 的 固化 会 增加 模型 的 容量 , 但 正如 我 们 在 第 4 革 提 到 
的 (第 8 草 将 详细 解释 )， 更 大 的 容量 会 市 来 更 大 的 过 拟 合 风 险 。 手 头 的 数据 集 比 较 小 时 尤其 如 
此 ( 如 本 示例 中 通过 浏览 人 收集 的 首 频 样 例 )， 更 别 说 更 多 的 层 会 加 大 训练 所 需 的 计算 量 。 你 可 
以 在 本 草 末 尾 的 练习 (4) 中 试验 解除 固化 不 同 层 数 的 效 末 。 

现在 来 总 结 一 下 本 市 所 学 的 知识 点 。 本 市 介绍 了 三 种 利用 预 训练 模型 学 习 执行 新 任务 的 方 
法 。 为 了 可 你 更 好 地 在 未 来 的 迁移 学 习 项 目 中 选择 该 用 何 种 方法 , 表 5-1 总 结 了 这 三 种 方法 及 其 
优势 和 劣势 。 


























表 5-1 TensorFlow.js 中 三 种 迁移 学 习 方 法 的 优势 和 劣势 总 结 




















方 法 优势 劣 势 
固化 基 模 型 的 前 几 层 (特征 。 简单 且 方便 。 只 有 迁移 学 习 的 输出 形状 和 激 
提取 层 )， 参 见 5.1.1 节 活 函 数 与 基 模型 匹配 时 才 适 用 
获取 基 模 型 内 部 的 激活 函 。 适 用 于 所 需 输 出 形状 和 基 模 型 不 匹配 的 迁移 学 。 需要 管理 两 个 独立 的 模型 对 象 
数 ， 即 输入 样 例 的 能 入 。 创 习 场 景 。 难以 微调 基 模 型 的 层 
建 一 个 新 模型 ， 并 将 该 舱 和 人 、。 可 以 直接 获取 椒 入 张 量 。 这 使 像 近 邻 (算法 细 
作为 输入 (5.1.2 市 ) 节 人 参见 信息 栏 5-2 ) 这 样 的 算法 成 为 可 能 
创建 一 个 新 模型 ， 该 模型 包 。 适用 于 所 需 输 出 形状 和 基 模 型 不 匹配 的 迁移 学 。 无 法 直接 获取 内 部 激活 函数 
含 基 模型 的 特征 提取 层 和 新 习 场 景 ( 扔 入 ) 

的 头 部 层 (5.1.3 节 ) 。 只 需要 管理 单个 模型 对 象 


。 使 微调 特征 提取 层 成 为 可 能 
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本 章 至 此 所 展示 的 迁移 学 习 示 例 有 一 个 共通 的 地 方 : 机 器 学 习 任 务 在 迁移 前 后 并 没有 发 生 本 
质 上 的 改变 。 具 体 而 言 ， 预 训练 模型 可 以 是 一 个 为 多 分 类 任务 训练 的 计算 机 视觉 模型 ， 而 迁移 学 
习 任 务 也 是 多 分 类 任务 。 但 本 节 中 将 展示 事情 不 一 定 如 此 。 通 过 迁移 学 习 ， 基 模型 可 以 适用 于 非 
常 不 同 于 原 任 务 的 任务 。 比 如 ,为 分 类 任务 训练 的 基 模 型 可 以 通过 迁移 学 习 执 行 回 归 任 务 〈 即 拟 
合 数 字 )。 这 类 跟 领 域 迁移 学 习 很 好 地 证 明了 深度 学 习 的 通用 性 和 可 复 用 性 ， 这 也 正 是 深度 学 习 
成 功 的 主要 原因 之 一 。 

我 们 选择 用 目标 检测 ( object detection ) 来 诠释 这 一 特点 。 这 也 是 你 在 本 书 中 第 一 次 遇 到 非 
分 类 的 计算 机 视觉 问题 类 型 。 目标 检 测 的 目的 是 检测 图 像 中 是 否 含有 某 些 类 型 的 目标 。 这 和 分 类 
有 何不 同 呢 ?目标 检测 任务 不 仅 要 得 出 检测 到 的 目标 的 类 别 , 同时 还 要 得 出 关于 目标 在 图 像 中 的 
位 置 这 类 和 额外 信息 。 仪 仅 依 靠 分 类 器 是 无 法 得 到 后 者 的 ,以 自动 各 驶 汽车 中 的 目标 识别 系统 为 例 ， 
它 不 仅 要 通过 分 析 ， 得 出 一 帧 输入 图 像 中 包含 的 值得 注意 的 目标 的 类 型 ( 比如 车 辆 和 行人 )， 还 
要 得 出 目标 在 图 像 坐 标 系 中 的 位 置 、 大 小 和 姿态 。 

示例 代码 位 于 切 S-examples 代码 仓库 的 simple-object-detection 文件 夹 中 。 该 示例 和 目前 所 见 
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的 示例 不 同 ， 因 为 它 结合 了 Nodejjs 的 模型 训练 和 浏览 硕 中 的 推 有 新。 具体 而 言 ， 模 型 训练 发 生 在 
tfjs-node (或 二 s-node-gpu ) 环境 中 ,训练 好 的 模型 随后 会 被 存储 到 便 盘 。parcel 服务 需 随 后 会 将 
保存 的 模型 文件 ， 以 及 静态 的 index.html 和 index.js 文件 加 载 到 浏览 器 中 ， 从 而 展示 模型 如 何在 
浏览 顶 中 进行 推 苯 。 

你 可 以 用 以 下 命令 运行 示例 程序 ( 只 需 输入 命令 即 可 ， 不 必 输 入 注释 )。 


git clone https://github.com/tensorflow/tfjs-examples .git 
cd tfjs-examples/simple-object-detection 





yarn 


# 用 Node.js 自己 训练 模型 。 这 一 步 是 可 选 的 
yarn train \ 
--numExamples 20000 \ 
--initialTransferEpochs 100 \ 
--fijneTuningEpochs 200 
yarn watch # 在 浏览 器 中 进行 目标 识别 
yarn train 命令 会 在 本 地 进行 模型 训练 ， 训 练 完成 后 会 将 模型 保存 到 ./dist 文件 夹 。 注 意 ， 
训练 任务 会 持续 很 久 ， 因 此 如 果 计 算 机 配 有 可 用 CUDA 的 GPU 的 话 ， 最 好 用 GPU 进行 加 速 ， 
这 样 可 使 训练 时 间 缩 短 至 原来 的 1/3 或 /4。 只 需 在 yarn train 命令 后 加 上 --gpu， 就 可 以 局 
用 GPU 加 速 。 
yarn train --gpu \ 
--numExamples 20000 \ 


--initialTransferEpochs 100 \ 
--fineTuningEpochs 200 


即使 你 没有 时 间或 计算 机 的 算 力 不 足 ， 也 不 必 担 心 : 你 可 以 跳 过 yarn train 命令 ,然后 
直接 运行 yarn watch 命令 。 随 后 可 以 在 浏览 各 中 弹出 的 Web 应 用 程序 页 面 ， 通 过 HTTP 从 一 
个 集中 的 模型 存储 地 址 ， 加 载 预 训练 的 模型 。 











5.2.1 基于 合成 场景 的 简单 目标 识别 问题 


前 沿 的 目标 识别 技术 涉及 很 多 不 同 的 技巧 ， 因 此 通常 不 适合 作为 目标 识别 领域 的 人 门 教程 。 
本 示例 的 目标 是 展示 目标 识别 的 本 质 ， 同 时 又 不 拘泥 于 过 多 的 技术 细节 。 正 因 如 此 , 我 们 设计 了 
一 个 人 简单 的 目标 识别 问题 ， 它 使 用 的 是 不 同 合成 场景 的 图 像 ( 见 图 5-13 )。 这 些 合成 图 像 的 尺寸 
为 224 像素 x 224 像素 ， 颜 色 深 度 为 3 (了 RGB 通道 )， 和 MobileNet 的 输入 要 求 匹配 ， 因 此 可 以 将 
MobileNet 用 作 基 模型 。 如 图 5-13 中 的 示例 所 示 ， 每 个 场景 都 有 一 个 白色 背景 。 需 要 识别 的 目标 
不 是 全 等 三 角形 , 就 是 长 方形 。 如果 目 标 是 三 角形 , 其 尺寸 和 朝 癌 是 随机 的 ; 如 果 目 标 是 长 方形 ， 
其 长 和 宽 是 随机 的 。 如 果 场 景 仅 由 白色 背景 和 目标 组 成 ,这 个 识别 任务 就 太 过 简单， 无 法 展现 出 
模型 训练 技巧 的 真正 威力 。 为 了 给 训练 加 点 难度 ,此 处 还 给 场景 随机 地 加 入 了 一 些 散布 于 图 像 中 
的 “噪声 目标 ”。 每 张 图 都 包含 10 个 圆 形 和 10 条 线段 作为 噪声 对 象 。 其 中 圆 形 的 尺寸 和 线段 的 
位 置 与 长 度 都 是 随机 生成 的 有 一 部 分 噪声 对 象 可 能 和 目标 对 象 有 重 且 ,并 部 分 遮盖 了 目标 对 象 。 
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无 论 是 实际 目标 还 是 噪声 目标 ， 其 颜色 都 是 随机 生成 的 。 
口 理解 了 输入 数据 后 ， 接 下 来 就 可 以 定义 即将 创建 的 模型 的 训练 目标 。 该 模型 会 生成 5 个 
数字 ， 它 们 可 以 被 分 为 以 下 两 组 。 
口 第 一 组 包含 一 个 数字 ， 它 被 用 于 标明 检测 到 的 目标 对 象 是 三 角形 还 是 长 方形 ( 无论 它 的 
人 位置、 尺寸 、 瑚 向 和 颜色 是 什么 )。 
第 二 组 由 剩 下 的 4 个 数字 组 成 。 它 们 是 检测 到 的 目标 周围 边框 顶点 的 坐标 。 具 体 而 言 ， 它 们 
分 别 是 边框 左边 的 x 坐标、 右边 的 x 坐标 、 顶 部 的 py 坐标 和 奔 部 的 y 坐 标 ， 见 图 5-13 中 的 示例 。 








推断 时 间 (ms): 36.7 推断 时 间 (ms): 26.0 
实际 目标 类 别 : 三 角形 实际 目标 类 别 : 长 方形 
预测 目标 类 别 : 三 角形 预测 目标 类 别 : 长 方形 





图 5-13 简单 目标 检测 使 用 的 合成 场 录 示例 。(a) 目标 是 一 个 经 过 旋转 的 等 边 三 角形 。 
(b) 目标 是 一 个 长 方形 。 实际 边框 ”是 我 们 关心 的 目标 的 实际 边框 。 注 意 ， 
有 时 目标 会 被 东 些 噪声 目标 下 兰 〈 线段 和 圆 ) 


使 用 合成 数据 的 几 个 好 处 : (1) 可 以 自动 得 到 数据 真正 的 标签 ; (2) 可 以 生成 任意 数量 的 数据 。 
在 创建 一 个 场景 的 图 像 的 过 程 中 , 图 像 中 包含 的 目标 类 型 及 其 边框 都 是 可 自动 获得 的 , 因此 不 需 
要 耗费 任何 人 力 来 对 训练 图 像 进 行 手 动 标记 。 这 种 将 输入 特征 和 标签 合成 到 一 起 的 方式 是 非常 高 
效 的 。 它 被 广泛 用 于 各 种 次 度 学 习 模 型 的 测试 和 原型 设计 环境 , 目 然 也 是 你 应 该 交 悉 的 技巧 之 一 。 
然而 ,如 末 要 将 目标 检测 模型 应 用 到 现实 世界 的 图 像 输入 中 , 仍然 需要 针对 人 工 标记 的 真实 场景 
进行 训练 。 值 得 庆 圣 的 是 ， 已 有 很 多 这 样 的 有 标签 数据 集 。COCO ( Common Object in Context ) 
数据 集 就 是 其 中 之 一 。 

训练 完成 后 ， 模 型 就 可 以 用 足够 高 的 准确 率 对 图 像 中 的 目标 进行 定位 和 分 类 ( 见 图 5-13 中 
的 示例 )。 下 一 节 中 我 们 将 深入 了 人 解 模型 是 如 何 学 会 执行 目标 检测 任务 的 。 





























5.2.2 深入 了 解 如 何 实现 简单 的 目标 检测 
让 我 们 构建 一 个 神经 网 络 ， 用 于 解决 针对 合成 图 像 的 目标 检测 问题 。 和 之 前 一 样 ， 此 处 会 基 
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于 预 训 练 的 MobileNet 模 型 进行 模型 构建 。 这 是 为 了 复 用 MobileNet 柑 型 卷 积 层 提供 的 强大 且 对 
图 像 数 据 普 裔 适用 的 视觉 特征 提取 带 。 这 正 是 代码 清单 5-9 中 的 10adTruncatedBase() 方 法 所 
做 的 。 然 而 ， 新 模型 还 有 一 个 新 挑战 ， 即 如 何 同 时 预测 两 个 东西 : 一 个 是 上 日 标的 形状 ， 男 一 个 是 
日 标 在 图 像 中 的 坐标 。 我 们 之 前 从 未 见 过 这 类 “ 双 任 务 预 测 ”( dual-task prediction )。 此 处 使 用 的 
技巧 是 让 模型 输出 一 个 封装 了 对 形状 和 坐标 预测 结果 的 张 量 。 我 们 还 要 设计 一 个 新 的 损失 也 数 ， 

用 它 度量 模型 在 这 两 个 任务 上 的 性 能 。 我 们 虽然 可 以 单独 训练 两 个 模型 , 分 别 用 于 目标 形状 和 目 
标 边框 的 分 类 , 但 和 使 用 单个 模型 相 比 , 使 用 两 个 模型 会 耗费 更 多 的 算 力 和 内 存 ,， 并且 没有 充分 
利用 两 种 任务 能 共用 特征 提取 层 的 特点 。( 下面 的 代码 摘自 simple-object-detection/train.js。 ) 






































代码 清单 5-9 ”基于 截断 版 MobileNet 定义 用 于 简单 目标 检测 的 模型 " 


const topLayerGroupNames = | 设置 微调 阶段 应 该 解除 
'CONnV_PWw_9', 'conv_pw_10', 'conv_pPw_11']; 哪些 层 的 固化 


Const topLayerName = 
‘Ss{topLayerGroupNames [topLayerGroupNames.length - 1]} relu ; 


async function loadTruncatedBase() ({ 
Const mobilenet = await tf.loadLayersModel ( 
'https://storage.googleapis.com/' + 
'tfjs-models/tfjs/mobilenet v1 0.25 224/model.jJson'); 


const fineTuningLayers = [|]; 


const layer = mobilenet.getLayer (topLayerName); 
const truncatedBase = 获取 中 间 层 ， 即 最 后 


创建 截断 版 的 一 个 特征 提取 层 
MobileNet inputs: mobilenet.inputs, 


outputs: layer.output 


}); 


for (const layer of truncatedBase.layers) { 


layer.trainable = false; 
for (const groupName of topLayerGroupNames) { 在 迁移 学 习 初 期 
if (layer.name.indexOf (groupName) === 0) { 固化 所 有 的 特征 
fineTuningLayers.push (layer); 提取 层 
break; 


} 
记录 微调 阶段 解除 


} 
固化 的 层 


} 


return {truncatedBase, fineTuningLayers}; 


】 
输出 层 共有 5 个 单元 ， 其 中 1 个 
对 应 形状 ，4 个 对 应 形状 的 边框 


function buildNewHead (inputShape) { 
( 见 图 5-14) 


const newHead = tf.segquential (); 
为 简单 目标 检 newHead.add (tf.layers.flatten({inputShape})); 
测 任务 构建 新 naewHiead add tt Tayers emnee (imices: 200, activyationy elu yyy:? 
头 部 模型 newHead.add (tf.layers.dense({units: 5})); | 
return newHead; 





中 为 了 让 核心 逻辑 更 清晰 ， 已 移 除 了 部 分 异常 处 理 代码 。 
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async function buildObjectDetectionModel() { 
const {truncatedBase, fineTuningLayers} = await loadTruncatedBase(); 


const newHead = buildNewHead (truncatedBase.outputs[0] .shape.slice(1)); 
Const newOutput = newHead.apply (truncatedBase.outputs[0]); 


const model = tf.modell(t 遇 有 加 
Tiputss toeuncogtedBaee. Inputys, 将 新 的 头 部 模型 嫁接 到 截断 版 
outputs: newOutput MobileNet 之 上 , 从 而 得 到 用 于 

目标 检测 的 完整 模型 


return {model, fineTuningLayers}; 


} 


代码 清单 5-9 中 的 buildNewHead () 方 法 是 “ 双 任 务 ”模型 的 关键 组 成 部 分 。 图 5-14 的 左 
侧 展示 了 模型 的 示意 图 。 新 头 部 由 三 层 组 成 。 截 断 版 MobileNet 的 最 后 一 个 卷 积 层 的 输出 会 经 过 
届 平 化 屋 ， 从 而 转换 为 适合 后 续 密集 层 人 处 理 的 表示 。 第 一 个 密集 层 是 隐藏 的 ， 并 且 使 用 ReLU 非 
线性 激活 函数 。 第 二 个 密集 层 是 头 部 的 最 终 和 输出， 也 是 整个 目标 检测 模型 的 输出 。 该 层 使 用 的 是 


























狱 认 的 线性 激活 函数 。 它 是 理解 模型 如 何 运 行 的 关键 ， 因 此 需要 仔细 人 研究 。 
目标 检测 模型 


Ea wy yA 
| 新 头 部 
截断 版 MobileNet (扁平 化 层 密集 层 1 密集 层 2 

















图 5-14 目标 检测 模型 ， 以 及 它 所 基于 的 自 定义 损失 函数 。 模 型 的 创建 方法 ( 图 中 的 左 
半 部 分 ) 见 代码 清单 5-9， 自 定义 损失 函数 的 创建 方法 见 代码 清单 5-10 


从 代码 中 可 见 , 最 后 的 密集 层 共 包含 5 个 输出 单元 。 这 5 个 数学 表示 什么 呢 ?” 它 们 涵盖 了 形 
状 的 预测 结果 和 边框 坐标 的 预测 结果 。 有 意思 的 是 , 决定 这 些 输 出 含义 的 并 不 是 模型 本 里 ,而 是 
模型 的 损失 也 数 。 我 们 之 前 已 经 见 过 很 多 不 同类 型 的 损失 也 数 。 它们 可 以 是 简单 的 字符 串 形式 的 
和 名字， 比如 "meanSquaredError"， 这 对 其 对 应 的 机 禹 学 习 任务 是 适用 的 ( 比如 第 3 章 中 的 表 3-6 )。 
然而 , 这 只 是 TensorFlow.js 中 两 种 配置 损失 孙 数 方法 中 的 一 种 。 此 处 将 使 用 的 是 第 二 种 方法 ， 即 
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日 定义 一 个 符合 一 定 参数 和 返回 值 特征 ， 或 者 说 果 数 签名 〈 signature ) 的 JavaScript 子 数 。 所 需 
的 函数 签名 如 下 。 

口 两 个 输入 参数 : 输入 样 例 真 正 的 标签 ， 以 及 对 应 的 模型 预测 。 每 个 参数 都 是 二 维 张 量 。 

两 个 张 量 的 形状 是 完全 相同 的 ， 其 中 张 量 的 第 一 个 维度 都 是 批 次 尺 才 。 

口 返回 的 是 一 个 标量 张 量 〈 即 形状 为 空 数 组 [] 的 张 量 )， 其 值 为 批 次 中 样 例 损失 的 平均 值 。 

代码 清单 5-10 展示 了 符合 上 述 函 数 签名 的 目 定 义 损 失 函 数 。 它 对 应 于 网 5-14 中 的 右边 部 分 。 
customLossFunction(yTrue，YyPred) 的 第 一 个 参数 是 表示 样 例 真正 标签 的 张 量 ， 其 形状 为 
[batchsize，5]。 它 的 第 二 个 参数 (yPred ) 是 模型 输出 的 预测 结果 ， 其 形状 和 yTrue 完全 
相同 。yTrue 第 二 个 轴 的 5 个 维度 ( 即 5 个 列 ， 如 果 将 其 看 作 一 个 矩阵 的 话 ) 中 ， 第 一 个 维度 
值 为 0 或 1, 它 表示 了 目标 的 形状 (三 角形 为 0, 长 方形 为 1 ), 该 值 来 源 于 样 例 数据 的 合成 过 程 
(参见 simple-object-detection/synthetic images.js )。 剩 下 的 4 列表 示 目 标的 边框 ， 具 体 而 言 就 是 
边框 左 、 右 、 上 、 下 4 条 边 的 坐标 。 坐 标的 取信 范围 为 0~224( 即 cANVAS_SIZE )。 此 处 的 
224 是 输入 岁 像 的 高 和 宽 ， 继 承 于 MobileNet 输入 图 像 尺 寸 ， 因 为 我 们 的 模型 是 基于 MobileNet 
构建 的 。 


代码 清单 5-10 ”定义 目标 识别 任务 的 目 定 义 损 失 皮 数 
const labelMultiplier = tf.tensorld( [CANVAS_ SIZE, 1, 1, 1, 1]); 
function customLossFunction(yTrue, yPred) { 
return tf.tidy(() => { 
return tf.metrics.meanSquaredError ( 
yTrue.mul (labelMultiplier), yPred); < 


yTrue 中 表示 目标 形状 的 一 列 被 乘 以 cANVAS_sIzE ( 即 224 )。 
这 是 为 了 确保 形状 预测 结果 和 边框 预测 结果 对 损失 的 影响 力度 
大 致 相同 


目 定 义 损 失 函 数 将 yTrue 作为 第 一 个 输入 。 在 计算 损失 前 ， 先 将 它 的 第 一 列 〈 值 为 0 或 1 
的 形状 标签 值 ) 乘 以 CANVAS_sIzE， 同 时 将 其 他 列 保持 不 动 。 随 后 ,计算 yPreq 和 缩放 后 的 
yTrue 之 间 的 MSE。 为何 要 缩放 yTrue 第 一 列 的 值 呢 ? 此 处 希望 模型 输出 一 个 表示 目标 是 三 角 
形 还 是 长 方形 的 数字 。 具 体 而 言 ， 对 于 三 角形 ， 它 应 该 输出 接近 于 0 的 数字 ; 对 于 长 方形 ， 它 应 
该 输出 接近 CANVAS_STZE(〈 即 224 ) 的 数字 。 因 此 ， 在 推断 阶段 ， 就 可 以 仅 靠 比较 模型 输出 的 
第 一 个 但 是 否 超过 CANVAS_SIZE/2(〈 即 112 )， 判 断 输 入 形状 更 接近 三 角形 还 是 长 方形 。 接 下 来 
的 问题 是 ， 如 何 度量 形状 预测 的 准确 率 ， 从 而 得 到 损失 函数 。 管 宁 是 计算 预测 值 和 乘 以 
CANVAS_SIZE 后 真正 的 形状 标签 值 ( 原 为 0 或 1 ) 之 间 的 MSE。 

为 何 要 这 么 做 , 而 不 是 像 第 3 章 的 钓鱼 网 站 检测 样 例 那 样 使 用 二 元 交 又 炉 呢 ?” 这 是 因为 此 处 
需要 结合 两 个 准确 率 度 量 指标 : 一 个 是 形状 预测 的 度量 指标 ， 另 一 个 是 边框 预测 的 度量 指标 。 边 
框 预 测 任 务 输出 的 是 连续 值 ， 因 此 可 以 将 其 看 作 回 归 任 务 。MSE 目 然 殴 是 该 任务 的 一 个 理想 度 
量 指标 。 为 了 结合 这 两 个 度量 指标 ， 可 以 “ 假 效 ”形状 预测 也 是 一 个 回归 任务 。 这 个 小 技巧 使 我 
们 可 以 用 一 个 损失 栖 数 (代码 清单 5-10 中 的 tf.metric.meanSquaredError () 调 用 ) 封装 两 
个 预测 任务 的 损失 信息 。 























}); 
} 
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那 为 何 一 定 要 将 值 为 0 或 1 的 形状 指示 需 乘 以 CANVAS_SIZE 呢 ? 如 有 果 不 做 这 个 缩放 操作 ， 
则 模型 最 终 会 输出 一 个 临近 0~ 1 区 间 的 数字 作为 预测 。 如 果 该 数字 接近 0， 预 测 为 三 角形 ; 如 
条 接近 1， 则 预测 为 长 方形 。[0，, 1] 区 间 附 近 数 学 的 差别 显然 要 比 边框 的 预测 结 来 与 其 真正 值 之 
则 的 差别 小 ， 因 为 后 者 的 区 间 为 0~ 244。 因 此 ， 形 状 预 测 的 误差 信号 会 被 边框 预测 的 误差 信号 
完全 济 没 ， 目 然 也 就 无 法 帮助 我 们 获得 准确 的 形状 预测 。 缩 放 0 或 1 的 形状 标签 什 ， 可 以 确保 形 
状 预测 和 边框 预测 对 最 终 损 失 值 (customLossFunction() 的 返回 值 ) 的 影响 力 是 相当 的 。 这 
样 , 模型 在 训练 时 会 同时 优化 两 种 预测 类 型 。 在 本 章 末 尾 的 练习 (4) 中 , 你 将 有 机 会 试验 不 同 缩放 
方式 对 模型 训练 的 影响 。™ 

准备 好 数据 ， 并 定义 好 模型 与 损失 闵 数 后 ， 就 可 以 开始 训练 模型 了 ! 代码 清单 5-11 展示 了 
模型 训练 代码 中 的 关键 部 分 (摘自 simple-object-detection/train.js )。 正如 我 们 之 前 在 5.1.3 节 所 见 ， 
训练 会 分 为 两 个 阶段 进行 : 第 一 阶段 为 初步 训练 , 在 该 阶段 只 有 新 的 头 部 层 会 被 训练 ; 第 二 阶段 
为 微调 阶段 ， 在 该 阶段 ， 新 头 部 层 以 及 截断 版 MobileNet 基 模 型 的 顶部 数 层 会 一 同 被 训练 。 此 处 
需要 注意 ， 在 微调 阶段 的 fit () 调 用 之 前 ， 需 要 先 调 用 compile() 方 法 。 只 有 这 样 ， 对 各 层 
trainable 属性 的 修改 才 会 生效 。 如 果 在 你 自己 的 计算 机 上 进行 上 述 训 练 ， 会 发 现在 微调 阶段 
初期 , 损失 值 降低 极其 明显 。 这 反映 出 模型 的 容量 有 显著 增加 ,， 并且 解除 固化 后 的 层 开始 适应 目 
标 检测 数据 中 的 独特 特征 。fineTuningLayers 数组 决定 了 需要 解除 固化 的 层 。 其 中 的 具体 的 
层 是 在 截断 MobileNet 模 型 时 决定 的 (参见 代码 清单 5-9 中 的 1oadqTruncatedBase () 图 数 ) 它 
们 是 截断 版 MobileNet 顶部 的 9 层 。 在 本 章 末 尾 的 练习 (3) 中 ,你 可 以 尝试 解除 更 少 或 更 多 的 基 模 
型 的 顶部 层 ， 然 后 观察 它们 会 如 何 有 影响 模型 训练 的 准确 率 。 


代码 清单 5-11 目标 检测 模型 训练 的 两 个 阶段 






































const {model, fineTuningLayers} = await buildObjectDetectionModel ();} 
model.compilel(t 

loss: customLossFunction, 训练 初期 使 用 

optimizer: tf.train.rmsprop (5e-3) 较 高 的 学 习 率 


}); 


await model.fit(images, targets, { 
epochs: args.initialTransferEpochs, _ 
' \、 YJ 4 
batchSize: args.batchSize, 0 
validationSplit: args.validationSplit 初步 训练 
I 





// 迁移 学 习 的 微调 阶段 


for (Gongst laver of fineTuninogLayerg)y | < 一 一 开始 微调 阶段 








缩放 和 基于 meanSquaredError 的 损失 也 数 不 是 唯一 可 行 的 损失 水 数 解决 方案 。 男 一 种 可 行 的 方法 是 将 yPred 
的 第 一 列 看 作 概 率 值 ,人 然后 计算 它 和 yTrue 第 一 列 的 二 元 交叉 箭 。 然 后 可 以 将 二 元 交叉 烂 的 值 与 yvTrue 和 yPred 
剩 下 几 列 算出 的 MSE 相 加 。 在 个 方法 中 ， 交 叉 箭 也 需要 进行 合适 的 缩放 ， 从 而 平衡 它 与 边框 预测 的 损失 对 最 终 
损失 值 的 影响 ， 束 和 第 一 种 方法 一 样 。 此 处 的 缩放 涉及 一 个 需要 小 心 选择 的 可 调 参 数 。 在 实践 中 ， 它 会 成 为 模型 
的 一 个 超 参 数 ， 自 然 也 就 需要 时 间 和 算 力 进行 调 参 。 这 是 该 策略 的 一 种 缺点 。 为 了 简化 当前 的 问题 ， 我 们 选择 使 
用 当前 的 损失 计算 方法 ， 而 不 是 后 面 这 种 方法 。 
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layer.trainable = true; ”< 一 一 为 了 进行 微调 ， 解 除 部 分 层 的 固化 
上 
model.compilel(t 

loss: customLossFunction, 微调 阶段 使 用 相对 





optimizer: tf.train.rmsprop (2e-3) | 较 低 的 学 习 率 
上 
awalt model.fit(images, targets, { 
epochs: args.fineTuningEpochs, 在 微调 阶段 ， 减 小 batchSize， 
batcehsize: argg.Dacchsize /2， S | 从 而 避免 内 存 不 足 问 题 .这 是 因 
valldationSplits arge. ValidationSplit 为 反 向 传播 会 涉及 更 多 权重 , 并 
}) ; < 对 模型 进行 微调 较 训 练 初期 消耗 更 多 内 存 





微调 结束 后 ， 模 型 会 被 保存 到 硬盘 ， 并 会 在 随后 〈 由 yarn watch 命令 触发 ) 的 推断 阶段 
加 载 到 浏览 硕 中 。 无 论 你 加 载 的 是 预 训练 模型 ， 还 是 目 己 花 时 间 在 本 地 训练 到 一 定 程度 的 模型 ， 
在 浏览 硕 中 的 推 上 新 页面 看 到 形状 和 边框 预测 结 采 都 会 相当 不 错 〈 经 过 100 轮 次 的 初期 训练 和 200 
轮 次 的 微调 训练 后 ， 验 证 损失 会 小 于 100 )。 这 一 推断 结 采 固然 不 错 ， 但 不 是 完美 的 ( 见 图 5-13 
中 的 样 例 )。 但 你 观察 这 些 绪 果 时 ， 应 该 意识 到 ， 浏 览 套 中 的 推 犁 是 无 俩 见 的 ， 也 就 是 说 能 够 反 
映 出 模型 对 未 见 过 样 例 的 真实 泛 化 能 力 。 这 是 因为 训练 好 的 模型 在 浏览 妖 中 进行 推断 时 使 用 的 样 
例 ， 和 迁移 学 习 过 程 见 到 的 训练 样 例 是 不 同 的 。 

接 下 来 总 结 一 下 本 市 的 内 容 , 我 们 在 本 市 学 习 了 如 何 将 为 图 像 分 类 任务 训练 的 模型 应 用 于 一 
种 不 同 的 任务 : 目标 检测 。 在 为 目标 识别 任务 进行 迁移 学 习 的 过 程 中 , 我 们 展示 了 如 何 定义 一 个 
目 定 义 损 失 函 数 来 匹配 目标 识别 问题 的 “双人 任务” 特性 〈 即 形状 分 类 任务 + 边框 回归 任务 )， 以 
及 如 何 使 用 自 定 义 损失 上 数 进行 模型 训练 。 这 个 目标 检测 示例 不 仅 诠 释 了 目标 检测 硼 后 的 基本 原 
理 , 同时 还 展示 了 迁移 学 习 的 灵活 性 ， 以 及 它 对 不 同 问题 的 广泛 适用 性 。 当 然 , 在 生产 环境 中 使 
用 的 目标 检测 模型 要 更 为 复杂 , 涉及 的 技巧 也 比 此 处 使 用 合成 数据 集训 练 的 简单 示例 所 涉及 的 要 
多 。 信 息 栏 5-3 简要 地 展示 了 高 级 目标 检测 模型 一 些 有 趣 的 事项 ， 同 时 还 介绍 了 这 些 更 高 级 的 模 
型 和 本 章 的 简单 示例 有 何不 同 ， 以 及 如 何 用 TensorFlow.js 使 用 它们 。 












































言 息 栏 5-3 ”生产 环境 中 的 目标 检测 模型 


0.853 风 稳 


0.690 风 等 





A 一 个 高 级 目标 识别 模型 的 示例 是 TensorFlow.js 版 的 单 发 多 框 

”= 检测 模型 。 注意, 图 中 标 出 的 多 个 边框 ,以 及 它们 对 应 的 目标 
全”” ”类别 和 预测 置信 度 

目标 检测 对 很 多 应 用 类 型 而 言 都 是 具有 关键 意义 的 任务 ,比如 图 像 理解 、 工 业 自 动 化 和 自动 
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轰 驶 汽车 。 最 著名 的 目标 检测 模型 包括 单 发 多 框 检 测 (Single-Shot Detection, SSD ) 模型 *， 以 及 
YOLO (YouOnlyLook Once ) 模型 。 "这些 模型 和 本 章 展 示 的 简单 目标 检测 模型 有 以 下 共同 点 。 
口 它们 都 能 预测 目标 的 类 别 和 位 置 。 
口 它们 都 是 基于 像 MobileNet 和 VGG16° 这 样 的 预 训 练 图 像 分 类 模型 ， 并 通过 迁移 学 习 
训练 而 得 来 的 。 
然而 ， 它 们 与 我 们 的 简单 示例 还 有 以 下 不 同 之 处 。 
口 现实 中 的 目标 检测 模型 预测 的 目标 种 类 比 我 们 的 简单 模型 要 多 得 多 (例如 ,COCO 数据 
集 有 80 个 目标 类 别 ， 参 见 COCO 数据 集 网 站 的 说 明 )。 
口 它们 可 以 检测 同一 个 图 像 中 的 多 个 目标 (参见 示例 图 像 )。 
口 它们 的 架构 要 更 为 复杂 。 例如 ,SSD 模型 会 在 截断 版 预 训练 图 像 分 类 模型 之 上 添加 多 个 
a 部 。 这 样 才 能 分 别 预测 输入 图 像 中 的 多 个 目标 的 类 别 预测 置信 和 度 和 边框 坐标 。 
简单 模型 使 用 单个 meanSquaredError 度量 指标 作为 损失 不 同 , 现实 中 的 目标 检测 
es 两 种 损失 的 加 权 总 和 作为 损失 函数 。 这 两 种 损失 分 别 是 (1) 针 对 预测 的 目标 
类 别 概 浴 值 损失 的 , 使 用 归 一 化 指数 函数 作为 激活 函数 、 类 似 交 又 灶 的 损失 遂 数 ,以 及 
(2) 针 对 目标 边框 坐标 损失 的 、 类 似 meanSquaredError 或 meanAbsoluteError 的 损 
失 函 数 。 两 种 损失 函数 值 的 相对 权重 经 过 仔细 的 微调 ,以 保证 两 种 损失 对 最 终 损失 的 影 
响 力 是 平衡 的 。 
口 现实 中 的 目标 检测 模型 会 为 每 个 输入 图 像 中 的 目标 生成 人 上 最 终 输 出 会 对 
这 些 候 选 边 框 进行 “ 栽 剪 ”"， 只 留 下 对 应 最 高 目标 类 别 概率 值 的 边 
口 有 些 现实 中 的 目标 检测 模型 会 将 目标 边框 在 别 的 真 0 
也 就 是 说 ,模型 会 对 大 量 有 标签 的 真实 图 像 进行 分 析 , 然后 对 图 像 中 目标 边框 的 位 置 进 
行 合 理 推测 ,这些 先 验 知识 可 以 加 速 模型 的 训练 , 因为 这 意味 着 训练 可 以 从 更 合理 的 初 
始 状 态 开 始 ， 而 不 是 从 完全 随机 的 状态 (正如 我 们 的 简单 目标 检测 示例 一 样 ) 开始 。 
有 一 部 分 目标 识别 模型 已 经 移植 到 了 TensorFlow.js。 其 中 最 值得 探索 的 模型 之 一 已 经 存放 
在 角 S-models 代码 仓库 里 的 oco-ssd 文 件 夹 下 。 你 可 以 使 用 以 下 命令 运行 它 。 


git Clone https://github.com/tensorflow/tfjs-models.git 
Ed em mo lyeoee eeenme 
yarn && yarn watch 


如 果 你 还 想 进 一 步 了 解 现实 中 的 目标 检测 模型 ， 可 以 参阅 下 面 的 博客 文章 。 它 们 分 别 讲 
解 了 SSD 模型 和 YOLO 模型 。 这 两 个 模型 使 用 的 是 不 同 的 模型 架构 和 后 期 处 理 技巧 。 


参见 Wei Liu、Dragomir Anguelov、Dumitru Erhan 等 人 的 文章 “SSD: Single Shot MultiBox Detector”。 
参见 Joseph Redmon 、Santosh Divvala 、Ross Girshick 等 人 的 文章 “You Only Look Once 一 Unified, Real-Time 
Object Detection 。 


SS SO 


〇 


参见 Karen Simonyan 和 Andrew Zisserman 发 表 的 文章 “Very Deep Convolutional Networks for Large-Scale Image 
Recognition” 。 
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口 Eddie Forson 撰写 的 “Understanding SSD MultiBox 一 Real-Time Object Detection In Deep 
Learning 。 
口 Jonathan Hui 撰写 的 “Real-time Object Detection withYOLO,YOLOv2, and now YOLOv3 。 





我 们 目前 为 止 处 理 的 机 需 学 习 数 据 集 都 来 自 某 些 链接 或 代码 仓库 , 并 可 直接 使 用 。 得 益 于 数 
据 科 学 家 和 机 融和 学 习 人 研究 先驱 者 不 梧 竺 筋 的 整理 , 这 些 数据 集中 的 数据 已 经 非常 规整 有 干净。 这 
样 ， 我 们 就 可 以 专注 于 建 模 ， 而 不 是 顾虑 如 何 获取 数据 或 获取 的 数据 是 否 正确 。 无 论 是 本 和 草 的 
MNIST 数据 集 和 音频 数据 集 ， 还 是 第 3 章 的 钓鱼 网 站 数据 集 和 交尾 花 数 据 集 ， 都 是 如 此 。 

但 我 们 可 以 肯定 地 说 , 你 将 在 现实 生活 遇 到 的 实际 机 融 学 习 问 题 绝 对 不 会 是 这 样 。 机 天 学 习 
从 业者 绝 大 部 分 时 间 会 花费 在 数据 的 获取 、 预 处 理 、 清 洗 、 确 认 以 及 格式 化 上 。 "下 一 章 将 介绍 
TensorFlowjs 提供 的 一 些 能 够 简化 数据 获取 和 处 理 流 程 的 工具 。 





5.3 ”练习 


(1) 5.1.1 市 介 绍 MNIST 数据 集 的 convnet 的 迁移 学 习 示 例 时 ， 我们 指出 如 果 在 训练 前 没有 调 
用 模型 的 compile() 方 法 ， 只 是 设置 模型 层 的 trainable 属性 ， 那 么 设置 并 不 会 生殖。 修改 
index.js 示例 文件 中 的 retrainMogdel () 方 法 验证 这 一 点 。 具 体 而 言 ， 可 以 尝试 以 下 修改 。 

a. 在 this.model .compile() 所 在 行 的 前 一 行 调用 this.model .summary ()。 留意 打印 
出 的 可 训练 参数 和 不 可 训练 参数 的 数量 ,它们 说 明了 什么 ”它们 和 调用 compile() 后 显示 的 数 
量 有 何不 同 ? 

b. 这 个 修改 和 上 一 个 修改 无 关 。 将 this.model.compile() 调 用 移 到 设置 特征 层 的 
trainable 属性 的 前 一 行 。 换 言 之 ， 在 compile() 调 用 后 再 设置 这 些 层 的 属性 。 做 出 修改 后 ， 
训练 速度 有 什么 变化 , 是 否 和 只 更 新 模型 最 后 几 层 一 样 ? 能 不 能 找到 别 的 方法 确认 修改 后 训练 更 
新 了 模型 前 几 层 的 权重 ? 

(2) 在 5.1.1 市 的 迁移 学 习 过 程 中 ( 见 代 人 码 清 单 5-1 ), 程序 通过 在 fit () 调用 前 将 模型 前 两 个 
conv2d 层 的 trainable 属性 设 为 false, 固 化 了 这 两 层 。 能 否 在 mnist-transfer-cnn 示例 的 index.js 
文件 中 添加 一 些 人 代码， 确认 conv2d 层 确 实 没有 被 fit () 调用 改变 ? 我 们 在 该 和 中 还 和 尝试 过 另 一 
种 方法 , 即 在 没有 固化 卷 积 层 的 前 提 下 调用 fit () 方 法 。 你 能 确认 这 几 层 的 权重 值 确实 被 Eit () 
调用 改变 了 吗 ? 〈 提 示 : 第 2 曹 的 2.4.2 市 曾 介 绍 过 ， 我们 可 以 用 模型 对 象 的 layers 属性 和 
getweights() 方 法 获取 权重 的 值 。) 

(3) 将 Keras 的 MobileNetV22 ( 注意 不 是 MobileNetV1， 因 为 我 们 已 经 展示 过 转换 它 ) 应 用 
转换 成 适用 于 TensorFlow.js 的 格式 ,并 用 TensorFlow.js 在 浏览 器 中 加 载 它 。 参 见 信息 栏 5-1 中 列 
出 的 具体 步骤 。 你 能 用 summary () 方法 检查 MobileNetV2 模型 的 拓扑 结构 ， 并 找 出 它 和 



































中 参见 由 Gil Press 撰写 的 2016 年 3 月 23 日 发 布 于 《福布斯 》 英 文 网 站 的 文章 “Cleaning Big Data 一 Most Time- 
Consuming, Least Enjoyable Data Science Task, SurveySayS 。 
@) 参见 Mark Sandler、Andrew Howard、Menglong Zhu 等 人 撰写 的 文章 “MobileNetV2 一 Inverted Residuals and Linear”。 
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MobileNetV1 模型 的 不 同 之 处 吗 ? 

(4) 代码 清单 5-8 中 的 代码 所 做 的 几 件 重要 的 事情 之 一 是 ， 在 解除 基 模 型 密集 层 的 固化 后 ， 
由 次 调用 模型 的 compile() 方 法 。 你 能 够 尝试 以 下 几 件 事 吗 ? 

a. 使 用 和 练习 (2) 相 同 的 方法 确认 ， 密 集 层 的 权重 ( 核 和 偏差 ) 确实 没 被 第 一 个 Eit () 调 用 
修改 ( 与 迁移 学 习 的 初步 训练 对 应 的 调用 )。 同 时 确认 ， 第 二 个 fit () 调用 确实 修改 了 这 些 权 重 
(与 微调 阶段 对 应 的 调用 )。 

b. 试看 注释 挥 解 除 固化 的 那 行 代码 ( 即 改变 层 的 可 训练 属性 的 那 行 代码 ) 之 后 的 compile() 
调用 ， 然 后 观察 这 将 如 何 影 响 之 前 观察 到 权重 信 改 变 。 确 认 必 须 使 用 compile() 调 用 才能 使 模 
型 的 层 固 化 状态 改变 生效 。 

c. 改变 代码 ， 并 泓 试 解除 原 口令 模型 中 更 多 和 权重 有 关 的 层 的 固化 ( 比如 倒数 第 二 个 密集 层 
之 前 的 conv2d 层 )。 观 察 这 对 微调 阶段 的 绪 采 有 何 影 啊 。 

(5) 在 为 简单 的 目标 检测 任务 目 定义 的 损失 函数 中 ， 我 们 对 人 为 0 或 1 的 形状 标签 进行 了 缩 
放 ， 这 样 使 得 形状 预测 的 误差 信号 和 边框 预测 的 误差 信号 之 间 能 取得 平衡 ( 见 代 码 清单 5-10 )。 
通过 移 除 代码 清单 5-10 中 的 mul () 调用 ， 试 验 没 有 进行 缩放 会 得 到 什么 结 采 。 确 认 缩放 对 于 获 
得 足够 准确 的 形状 预测 是 必要 的 。 也 可 以 通过 将 compile() 调 用 〈 见 代码 清单 5-11 ) 中 的 
customLossFunction 替换 成 meanSquaredError 做 到 这 一 点 。 同 时 还 需要 注意 ， 将 缩放 从 
训练 移 除 后 ， 还 要 将 推断 ( 相关 代码 位 于 simple-object-detection/index.js ) 时 使 用 的 靖 值 从 
CANVAS_SIZE/2 改 为 1/2。 

(6) 简单 的 目标 检测 示例 中 的 微调 阶段 解除 了 截断 版 MobileNet 基 模 型 ( 参见 代码 清单 5-9 是 
如 何 填 充 fineTuningLayers 的 ) 顶部 9 层 的 固化 。 一 个 目 然 的 问题 是 ， 为 什么 是 9 层 呢 ? 在 
本 练习 中 ， 改 变 解除 固化 的 层 数 ， 减 少 或 增加 fijneTuningLayers 数组 中 的 层 数 。 在 微调 阶段 
解除 更 少 层 的 固化 时 ， 你 预期 下 述 的 数字 会 发 生 什 么 改变 : 最 终 的 损失 什 ， 以 及 每 个 训练 轮 次 的 
耗 时 。 实 验 结束 是否 符合 你 的 预期 ? 微调 时 解除 更 多 层 的 固化 又 会 怎样 呢 ? 
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口 迁移 学 习 主 要 适用 于 和 预 训练 模型 原 学 习 任 务 相 关 但 不 完全 相同 的 新 学 习 任 务 。 在 新 学 
习 任 务 中 ， 可 以 复 用 基 模 型 或 其 中 一 部 分 ， 从 而 加 速 新 模型 的 训练 。 

口 在 迁移 学 习 的 实际 应 用 中 ， 人 们 通常 会 复 用 非常 大 的 分 类 数据 集训 练 出 的 convnet， 比 如 
用 ImageNet 数据 集训 练 出 的 MobileNet 模型 。 因 为 这 些 模型 的 原 数据 集 样 例 规模 大 日 多 
样 ， 所 以 它们 训练 出 的 模型 会 拥有 强大 且 通 用 的 卷 积 层 ， 这 些 卷 积 层 作为 特征 提取 融 广 
泛 适 用 于 不 同 的 计算 机 视觉 问题 。 仅 徘 一 般 迁 移 学 习 问 题 中 可 用 的 少量 学 习 数 据 很 难 训 
练 出 这 样 的 特征 提取 层 。 

口 我 们 讨论 了 TensorFlow.js 中 几 种 通用 的 迁移 学 习 和 策略。 它们 在 以 下 方面 有 所 不 同 : 是 否 
创建 了 新 的 层 作为 迁移 学 习 的 “ 头 部 层 ", 以 及 迁移 学 习 使 用 的 是 一 个 模型 对 象 还 是 两 个 。 
每 一 种 素 略 都 有 自己 的 优势 和 劣势 ， 并 适用 于 不 同 的 场景 ( 见 表 5-1 )。 
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口 通过 设置 模型 部 分 层 的 trainapble 属性 ， 可 以 避免 (Modael.fit () 调 用 触发 的 ) 训练 
过 程 更 新 这 些 层 的 权重 。 这 一 过 程 叫 作 层 固化 ， 目 的 是 在 迁移 过 程 中 “保护 ” 基 模 型 的 
特征 提取 层 。 

口 在 某 些 迁移 学 习 问 题 中 ， 可 以 在 对 模型 进行 初步 训练 后 ， 解 除 基 模 型 项 部 数 层 的 固化 ， 
增强 模型 的 性 能 。 这 反映 出 ， 解 除 顶 部 数 层 的 固化 可 以 使 模型 更 好 地 适应 新 数据 集 的 独 
特 特征 。 

口 迁移 学 习 是 一 种 灵活 且 广 泛 使 用 的 技巧 。 基 模型 可 以 帮助 我 们 解决 与 其 原 训练 任务 不 同 
的 新 间 题 。 本 草 通 过 将 MobileNet 用 作 基 模型 来 训练 目标 检测 模型 诠释 了 这 一 点 。 

口 在 TensorFlow.js 中 , 可 以 使 用 JavaScript 隆 数 目 定 义 能 够 处 理 输入 张 量 和 输出 张 量 的 损失 
国 数 。 正 如 本 和 草 的 徐 单 目标 检测 示例 所 展示 的 ， 解 决 实际 机 需 学 习 问 题 通 稼 需要 使 用 目 
定义 损失 函数 。 
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学 完了 第 一 部 分 和 第 二 部 分 , 你 现在 应 该 已 经 吹 悉 如 何 用 TensorFlowjs 进行 基本 的 深度 学 习 
了 。 第 三 部 分 主要 针对 那些 想 牢 牢 掌握 次 度 学 习 技 能 ， 并 拓宽 对 度 学 习 理 解 的 谈 者 。 第 6 章 赛 
括 了 机 融 学 习 中 数据 获取 、 变 换 和 使 用 的 相关 技巧 。 第 7 章 展 示 了 可 视 化 数据 和 模型 的 一 些 工 具 。 
第 8 章 关 注 欠 拟 合 和 过 拟 合 这 两 个 重要 的 现象 ， 并 提出 了 有 效 的 应 对 方法 。 基 于 上 述 讨论 ,第 8 
章 还 提出 了 一 个 通用 的 机 需 学 习 工 作 流 程 。 第 9~11 章 将 通过 实战 带 你 遍 览 深度 学 习 的 三 个 高 级 
领域 : 面 回 序列 的 醒 型 、 生 成 式 模型 和 蝇 化 学 习 。 这 三 章 将 市 你 束 悉 诛 度 学 习 令 人 兴奋 的 前 汽 
技术 。 




















处 理 数 据 





本 章 要 扣 

口 如 何 借助 tf .qata API 用 大 规模 的 数据 集训 练 模型 。 

口 如 何 通 过 探 系数 据 来 定位 和 解决 洪 在 的 问题 。 

口 如 何 利用 数据 增强 创建 新 的 “ 伪 样 例 ”， 从 而 改进 模型 质量 。 








广泛 存在 的 大 规模 数据 集 是 促成 当下 的 机 各 学 习 章 命 的 一 个 主要 因 系 。 如 果 不 能 轻松 地 获取 
大 量 高 质量 的 数据 , 那么 就 不 会 有 机 融 学 习 的 疾 速 凯 起 。 当 前 , 这样 的 数据 在 互联 网 上 随处 可 见 ， 
例如 Kaggle 和 OpenML 就 是 分 享 这 样 的 数据 的 网 站 。 度量 模型 性 能 的 基准 数据 的 情形 也 是 如 此 。 
这 些 数 据 集 为 机 顶 学 习 社 区 设置 了 一 个 共同 的 挑战 标杆 和 评价 基准 , 极 大 地 推动 了 机 柄 学 习 某 些 
分 文 领域 的 发 展 。 如果 说 机 需 学 习 是 这 个 时 代 的 太空 葛 赛 ,那么 数据 显然 就 是 火 稍 的 燃料 。 ”就 
像 火 前 燃料 一 样 ， 数据 也 是 威力 巨大 、 充 满 价值 且 不 稳定 的 。 它 们 对 于 机 需 学 习 系 统 的 运行 至 天 
重要 。 示 经 清洗 的 数据 则 像 遭 受 污染 的 燃料 ,很 容易 导致 系统 骨 演 。 本 半 会 围绕 数据 展开 ,介绍 
组 织 数 据 的 最 佳 实践 、 如 何 检 测 并 解决 数据 中 的 问题 ， 以 及 如 何 高 效 地 使 用 数据 。 

你 可 能 会 抱怨 :“ 难 道 我 们 不 是 一 二 在 和 数据 打交道 中? ”确实 如 此 。 我 们 在 之 前 的 几 章 中 
接触 过 各 种 类 型 的 数据 源 : 训练 图 像 分 类 模型 时 使 用 过 合成 的 图 像 数据 集 ， 以 及 从 网 络 摄像 头 采 
集 的 图 像 数据 集 ; 用 迁移 学 习 和 音频 数据 集 构 建 口 令 识 别 器 ; 用 表格 型 数据 集 预 测 房价 。 那 还 有 
何必 要 专门 讨论 数据 呢 ? 我 们 不 是 已 经 能 很 娴熟 地 处 理 数 据 了 吗 ? 

回忆 一 下 之 前 是 如 何 使 用 数据 的 。 我 们 通常 需要 先 从 远程 数据 源 下 载 数 据 集 。 然 后 (通常 ) 
还 会 对 原始 数据 进行 一 些 转 换 ， 将 其 变 为 适 于 使 用 的 格式 。 例 如 ， 将 字符 串 转 换 为 one-hot 编码 
的 单词 向 量 ， 或 者 标准 化 表格 型 数据 的 均值 和 标准 差 。 在 将 数据 输入 模型 之 前 ,还 要 从 原 数 据 集 
抽取 一 个 批 次 ， 然 后 将 其 中 的 数字 以 标准 格式 表示 为 张 量 。 这 些 步 又 都 必须 在 训练 开始 前 完成 。 

上 述 “下载 -转换 - 批 次 化 ”模式 在 机 需 学 习 中 很 铝 抑 。TensorFlow.js 目 这 了 能 使 这 类 处 理 更 
容 吻 、 更 模块 化 且 更 不 易 出 错 的 工具 。 本 章 将 介绍 这 些 位 于 tf .data 命名 空间 下 的 工具 ， 尤 其 
是 其 中 的 ti data.Dataset., 可 以 以 数据 流 的 形式 延迟 数据 加 载 。 更 具体 地 说 ， 它 可 以 按 需 下 


























GD ImageNet 数据 集 推动 上 日 标 检测 领域 的 发 展 ， 以 及 网 飞 挑战 赛 推 动 协同 过 滤 (collaborative filtering ) 领域 的 发 展 都 
是 这 方面 的 例子 。 
@) 这 个 比喻 来 自 Edd Dumbill 的 文章 “Big Data Is Rocket Fuel”， 刊 载 于 Big Data 第 1 卷 , 第 2 期 ， 第 71~72 页 。 
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载 、 转 换 和 获取 数据 , 而 不 是 一 次 性 地 下 载 整个 数据 集 , 然后 将 数据 存储 在 内 存 中 以 便 日 后 读 取 。 
流 形式 的 延 民 加 载 让 我 们 可 以 更 方便 地 处 理 那 些 过 大 的 数据 集 一 一 它们 通 稼 无 法 在 单个 浏览 硕 
标签 页 中 存放 ， 甚 至 无 法 在 单个 计算 机 的 内 存 中 存放 。 

本 和 草 会 先 介 绍 tf .data.Dataset API 及 其 配置 方法 ， 并 将 它 与 模型 对 接 。 随 后 将 介绍 一 些 
理论 与 工具 , 它们 能 助 你 分 析 数 据 、 探 索 数 据 ， 以 及 解决 这 一 过 程 中 可 能 遇 到 的 问题 。 本 草编 
将 引入 数据 增强 这 一 概念 ， 它 是 一 种 通过 合成 伪 样 例 来 扩展 数据 集 并 改进 模型 质量 的 方法 。 
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如 果 邮 件数 据 库存 有 数 百 吉 字 节 〈GB ) 大 小 的 数据 ， 并 且 需 要 特殊 权限 才能 读 取 它们 ， 那 
么 如 何 利 用 这 些 数据 训练 垃圾 邮件 过 滤 右 呢 ” 如 果 单 个 计算 机 没有 足够 空间 存放 训练 图 像 的 数 
据 库 ， 那 么 如 何 构建 这 些 数据 的 图 像 分 类 需 呢 ? 

对 于 机 融 学 习 工 程 师 而 言 ， 获 取 并 操作 大 量 的 数据 是 一 个 关键 技能 。 我 们 目前 接触 过 的 应 用 
程序 所 涉及 的 数据 都 能 很 好 地 在 其 内 存 限 制 内 运行 。 然 而 ,其 他 很 多 应 用 程序 会 涉及 大 规模 、 笨 
重 且 含有 隐私 信息 的 数据 集 。 对 于 这 些 应 用 程序 而 言 ， 之 前 的 技巧 就 不 再 适用 了 。 这 些 更 大 的 应 
用 程序 需要 使 用 能 够 按 需 从 远程 数据 源 逐 步 获 取 数 据 的 技术 。 

TensorFlow.js 自 带 了 专用 于 这 类 数据 管理 需求 的 库 。 它 使 用 户 可 以 以 简洁 且 可 读 的 方式 对 数 
据 进 行 访 取 、 预 处 理 和 分 流 。 该 库 的 灵感 源 卓 Python 版 TensorFlow 的 tf.data API。 假 设 代码 
用 如 下 方式 导入 TensorFlow.js: 


import * as tf from '@tensorflow/tfjs'; 


那么 就 可 以 通过 tf .aata 命名 空间 使 用 数据 管理 的 相关 功能 。 


























6.1.1 tf.data.Dataset 对 象 


tfjs-data 的 绝 大 部 分 操作 会 发 生 在 一 个 叫 作 tft.dqata.Dataset 的 对 象 上 。tf.data. 
Dataset 对 象 提供 了 简单 、 可 配置 旦 高 性 能 的 数据 处 理 方法 。 它 能 够 届 历 并 处 理 大 量 〈 甚 至 是 
无 限 多 的 ) 数据 元 素 " 组 成 的 列表 。 粗 略 地 说 ， 可 以 将 数据 集 想 象 成 由 任意 元 素 组 成 的 可 迭代 集 
合 ， 与 Node.js 中 的 Stream 模块 类 似 。 当 程序 要 获取 数据 集中 的 下 一 个 元 系 时 ， 
tf.data.Dataset 对 象 的 内 部 实现 会 按 需 下 载 、 读 取 或 执行 函数 去 创建 想 获取 的 元 素 。 得 益 于 
这 种 数据 获取 上 的 抽象 ， 模 型 可 以 轻松 地 使 用 比 内 存 容 量 大 的 数据 量 进 行 训练 。 同 时 ， 当 需要 处 
理 多 个 数据 集 时 , 这 种 抽象 还 可 以 使 数据 集 的 复 用 和 管理 变 得 更 加 简便 。 这 是 因为 它们 可 以 在 程 
序 中 作为 对 象 〈 基 本 结构 ) 来 表示 。 通 过 按 需 加 载 数据 ( 而 不 是 一 次 性 地 加 载 所 有 数据 )， 






































中 在 本 章 中 ,我 们 将 经 常 使 用 元 素 ( element ) 一 词 来 指 代 tf.data.Dataset 中 的 数据 。 在 绝 大 多 数 情况 下 ， 元 素 
和 样 例 或 数据 点 是 同义词 。 也 就 是 说 ， 在 训练 集中 ， 元 系 指 (x，y) 组 成 的 数值 对 。 如 有 果 读 取 的 是 CSV 格式 的 数 
据 源 ， 元 系 则 指 文件 的 一 行 。Dpataset 提供 的 功能 非常 灵活 ， 并 可 以 处 理 不 同类 型 的 元 素 组 成 的 数据 集 ， 但 并 不 
推荐 这 么 做 。 
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tft.data.Dataset 对 象 对 内 存 的 使 用 提供 了 某 种 程度 的 优化 。 除 此 之 外 ， 它 还 能 通过 预 加 载 即 
将 使 用 的 数据 ， 实 现 比 单纯 加 载 当 前 使 用 的 数据 更 好 的 性 能 。 


6.1.2 创建 tt.aqata.Dataset 对 象 


在 TensorFlow.js 的 1.2.7 版 本 中 ， 有 三 种 方式 可 以 将 tf.dqata.Dataset 连接 到 某 个 数据 提 
供 者 。 我 们 将 逐个 讲解 实现 的 细节 ， 你 还 可 以 同时 参考 表 6-1 提供 的 概览 。 


表 6-1 从 不 同 数据 源 创建 tf.data.Dataset 对 象 


构建 tf .data.Dataset 

对 象 的 数据 源 
JavaScript 数组 ， 以 及 tf.data.array (items) 
Float32Array 这 样 的 类 型 
化 数组 


CSV 格式 的 文件 (可 以 是 | faata csvVt 
Source,csv- 
本 地 的 ， 也 可 以 是 远程 Config) 

的 )， 其 中 每 行为 一 个 元 


素 


APIl 








能 生成 元 素 的 通用 生成 | tf.data.generator ( 
BR <- 汪 generatorFunction) 
俘 国 数 





如 何 用 它 构建 效 据 集 对 象 


const dataset = tf.data.array ([1,2,3,4,5]);} 
(详情 参见 代码 清单 6-1 ) 


const dataset = 
tf.data.csv("https://path/to/my.csv"); 


(详情 参见 代码 清单 6-2 ) 

唯一 一 个 必 填 的 参数 是 代表 数据 源 的 URL。 除 此 之 外 , 它 还 
接收 一 个 csvconfig 参数 ， 该 参数 的 属性 可 以 用 于 配置 如 
何 处 理 CSV 文件 。 下面 是 一 些 可 配置 的 属性 的 例子 


columnNames 一 一 该 属性 接收 string[] 类 型 的 数据 用 来 
表示 CSV 文件 中 各 列 的 名 字 。 这 样 就 可 以 手动 配置 或 履 写 
CSYV 文件 中 的 列 名 

用 于 履 写 默认 分 隔 符 ( 去 号 ) 的 字符 
columnConfigs 存储 字符 中 columnName 每 
columnConfig 对 象 的 映射 关系 的 对 象 。 可 以 用 它 配 置 数 
据 集 如 何 处 理 数 据 以 及 返回 值 的 类 型 。columnconfig 对 
象 会 告诉 数据 集 的 处 理 需 该 列 的 元 素 类 型 (字符 串 或 整 
数 )， 以 及 它 是 否 是 数据 集 的 标签 列 
configuredcolumnsonly- 是 应 该 返回 CSV 文件 中 
所 有 列 的 数据 ， 还 是 仅 返 回 columnconfigs 对 象 中 包含 
的 列 的 数据 

详情 参见 TensorFlow 网 站 的 TensorFlow.js 页 面 提 供 的 API 
文档 











delimiter 








function* countDownFrom10() { 
for (let i=10; 1i>0; i--) { 
yield(i).; 


) 
} 


const dataset = 
tf.data.generator (countDownFrom10).; 


(详情 参见 代码 清单 6-3 ) 
注意 传 给 tf .data.generator() 的 参数 ， 如 果 参 数 为 空 ， 
则 该 函数 会 返回 一 个 Generator 对 象 
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1. 用 数组 创建 tf .data.Dataset 对 象 

创建 tf .data.Dataset 对 象 最 简单 的 方法 是 直接 基于 已 存 有 数据 的 JavaScript 数组 进行 创 
建 。 如 果 数 组 已 在 内 存 中 , 可 以 用 tf.dqata.array() 国 数 以 该 数组 为 基础 创建 一 个 数据 集 对 象 。 
当然 , 这 么 做 相 较 于 直接 使 用 数组 并 没有 什么 训练 速度 或 内 存 占用 上 的 优势 , 但 是 用 数据 集 对 象 
的 形式 读 取 数组 有 一 些 额 外 的 好 处 。 例 如， 这样 可 以 更 容 多 地 对 数据 进行 预 处 理 ， 同 时 之 后 也 可 
以 更 轻松 地 调用 简单 的 API, 例如 model.fitDataset () 和 model.evaluateDataset() 进 行 
模型 训练 与 评估 。6.2 节 中 将 介绍 这 一 点 。 

和 model.fit (x，y) 不 同 ，model.fitDataset (myDataset) 不 会 将 所 有 数据 一 次 性 地 
存 人 GPU 的 显存 中 。 也 就 是 说 ， 它 实际 可 处 理 的 数据 量 比 GPU 的 显存 要 大 。 注 意 ，JavaScript 
的 V8 引擎 的 内 存 限制 (在 64 位 操作 系统 上 为 1.4GB ) 通常 比 TensorFlow.js 能 在 WebGL 内 存 中 
存储 的 总 量 更 大 。 使 用 tf .data API 还 是 一 种 非常 好 的 软件 工程 实践 ， 因 为 它 使 我 们 可 以 轻松 
地 以 模块 化 的 方式 将 原 数 据 切 换 成 别 的 数据 类 型 。 如 果 没 有 数据 集 对 象 这 层 抽 象 ， 底层 数据 源 的 
实现 细 届 非常 容易 和 它 在 模型 训练 中 的 调用 代码 混在 一 起 。 一 旦 数据 源 层面 的 实现 发 生变 化 , 这 
部 分 代码 将 成 为 一 团 乱 奔 。 

如 代码 清单 6-1 所 示 ， 可 以 使 用 tf .qata.array (itemsAsArray) 其 于 现 有 的 数组 创建 一 
个 数据 集 对 象 。 


代码 清单 6-1 用 数组 创建 tf .data.Dataset 对 象 




















const myArray = [{xs: [1, 0, 9], ys: 10}, 创建 基于 数组 的 tfjs-data 
{xs: [>, 1, 3], ys: 11}, 数据 集 对 象 。 注 意 ， 这 并 不 
RS [by eh hh Ye 0 会 克隆 数组 或 其 中 的 元 素 
Const myFirstDataset = tf.data.array (myArray) ， 





await myFirstDataset.forEachAsync ( 


e => Console.l1log(e)); 
使 用 forgachAsync() 方 法 遍历 数据 集中 


// 生成 的 结果 如 下 的 所 有 值 。 注 意 forEachAsync () 是 一 个 
/7 TW Zr 7 0 异步 函数 ， 因 此 应 该 在 前 面 使 用 await 
// {xs: Array (3), ys: 11} 

// {xs: Array (3), ys: 12)} 


上 上 面 的 代码 使 用 forEachAsync () 限 数 遍历 数据 集 ， 并 逐个 生成 (yield ) 其 中 的 元 素 。 它 
的 详细 使 用 方法 参见 6.1.3 和 的 Dataset .forEachAsync 困 数 。 

除了 张 量 外 ， 数 据 集 中 的 元 素 还 可 以 是 JavaScript 中 的 基本 类 型 ”( 例如 数字 和 字符 串 )， 以 
及 引用 类 型 《例如 元 祖 、 数 组 和 这 些 数据 结构 般 套 得 到 的 对 象 ) 在 这 个 小 示例 中 ， 数 据 集 对 象 的 
三 个 元 系 的 结构 是 相同 的 。 它 们 是 拥有 相同 属性 和 值 类 型 的 对 象 。 一 般 而 言 ，tf .data.Dataset 
可 以 支持 不 同类 型 的 元 系 的 混合 。 但 在 实际 使 用 中 , 数据 集 的 元 床 通 党 是 具有 相同 类 型 语义 的 单 
元 。 换 言 之 , 它们 通常 表示 的 是 同类 事物 的 不 同样 例 。 因 此 ,除了 非常 特殊 的 使 用 场景 ， 每 个 元 















































Qj) 如 果 你 熟悉 Python 版 TensorFlow 对 tf .data 的 实现 的 话 ， 可 能 会 对 tt.dqata.Dataset 除了 支持 张 量 外 ， 还 文 
持 JavaScript 的 基本 类 型 感到 惊讶 。 
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2. 用 CSV 文件 创建 tf .data.Dataset 对 象 

一 种 非常 常见 的 数据 集 元 素 类 型 是 表示 表 结 构 ( 例如 CSYV 文件 ) 中 一 行 数据 的 对 象 。 该 对 
象 用 键 - 信 对 的 形式 表示 列 名 和 其 对 应 的 数据 。 代 人 码 清单 6-2 用 一 个 简单 的 示例 程序 展示 了 如 何 
连接 到 波士顿 房价 数据 集 〈 我 们 在 第 2 章 中 用 过 ) 并 列 出 其 中 的 数据 。 


代码 清单 6-2 ”用 CSV 文件 创建 tt.dqata.Dataset 对 象 


const myURL = z 用 远程 服务 器 上 存 
"https://storage.googleapis.com/tfjs-examples/" + 储 的 CSV 文件 创建 
"multivariate-linear-regression/data/train-data.csv"; tfjs-data 数据 集 

const myCSVDataset = tf.data.csv (myURL);} 六 


awalt myCSVDataset.forEachAsync(e => console.log(e)); 寺 














// 上 面 的 代码 输出 的 333 行 数据 类 似 下 面 这 样 
// {crim: 0.327, zn: 0, indus: 2.18, chas: 0, nox: 0.458, rm: 6.998, 


/7 GE 458 taxs 222) | 
pa 使 用 forgachAsync() 方 法 人 遍历 数据 集中 的 


元 素 。 注 意 forEachAsync() 是 异步 函数 





和 之 前 使 用 的 tf .qata.array () 不 同 ， 此 处 使 用 的 是 tf .data.csv()， 其 中 的 参数 指 癌 
CSV 文件 的 地 址 。 这 将 创建 一 个 基于 CSV 文件 的 数据 集 对 象 。 当 遍历 该 对 象 时 ， 实 际 是 在 遍历 
CSV 文件 的 各 行 。 在 Node.js 中 还 可 以 用 “file://” 作 为 URL 的 前 级 ， 具 体 使 用 方式 如 下 所 示 。 


> const data = tf.data.csv( 
'file://./relative/fs/path/to/boston-housing-train.csv'); 


在 过 历 过 程 中 ，CSYV 文件 的 各 行 会 被 逐个 转换 为 JavaScript 对 象 。 这 些 从 数据 集 获 得 的 元 又 
对 象 会 拥有 与 CSV 文件 中 各 列 名称 对 应 的 属性 。 这 简化 了 与 元 素 的 交互 ， 因 为 这 样 就 不 必 记 住 
各 列 的 排序 了 。6.3.1 节 会 详细 介绍 并 用 示例 展示 如 何 处理 CSV 格式 的 数据 。 


3. 用 生成 器 函数 创建 tf .data.Dataset 对 象 

第 三 种 创建 tf.data.Dataset 对 象 的 方式 一 一 也 是 最 灵活 的 一 种 一 一 是 使 用 生成 带 孙 数 , 这 
种 方式 需要 使 用 tf.data.generator() 方法 。 tf.data.generator ( ) 的 参数 为 一 个 JavaScript 
生成 器 函数 ( generator function， 写 法 为 function* )"。 生 成 器 函数 是 JavaScript 中 相对 较 新 的 
特性 ， 如 采 你 还 不 是 特别 熟悉 它 ， 最 好 先 花 点 时 间 阅 谈 一 下 相关 文档 。 生 成 硕 函 数 的 目的 是 按 需 
生成 一 系列 的 信 。 生 成 周期 可 以 是 无 限 长 , 也 可 以 是 持续 到 序列 中 所 有 的 值 生成 完成 。 生 成 副 孙 
数 生成 的 值 最 终 会 成 为 数据 集 的 值 ,生成 随机 数字 或 从 连接 的 硬件 设备 不 断 生 成 快照 数据 都 是 对 
生成 奉 函 数 的 简单 应 用 。 生 成 名 函数 也 可 以 有 很 多 更 复杂 的 用 途 , 例如 集成 到 电子 游戏 中 用 于 生 
成 截图 、 分 数 ， 以 及 控制 游戏 的 IO 操作 。 代 人 码 清单 6-3 展示 了 一 个 非常 简单 的 生成 锅 函 数 ， 它 
能 够 生成 模拟 随机 毛 散 子 的 数据 样 例 。 






































Q) ECMAscript 中 生成 磊 咀 数 的 具体 使 用 方法 ， 参 见 MDN 文档 的 function* 页 面 。 
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代码 清单 6-3 创建 存储 随机 撕 般 子 的 数据 样 例 的 Etoata DatesSer 对 和 象 
lat numPlaysSsorar = 0} numPlaysSoFar 变量 存在 于 roll1TwoDice() 的 
闭 包 中 。 该 变量 可 以 用 来 记录 数据 集 对 象 调用 


rollTwoDice() 函数 的 次 数 


+ 


function rollTwoDice() 








numPlaysSoFar+i++; 
return [Math.ceil (Math.random() * 6), Math.ceil (Math.random() * 6)1]: 
} 
function* rollTwoDiceGeneratorFn() { (使 用 function* 语 法 ) 定义 一 个 生成 器 函 


while(true) { 
yield rollTwoDice(),; 
} 
} 


数 。 该 函数 会 不 断 生 成 调用 rollTwoDice () 
函数 的 结果 














const myGeneratorDataset = 七 上 .Qata.generator ( 
rollTwoDiceGeneratorFn).; 

awalt myGeneratorDataset.take(1) .forEachAsync ( 
e => console.l1log(e)); 


该 行 负责 创建 数据 集 对 象 











// 控制 台中 会 打印 出 类 似 下 面 这 样 的 什 从 数据 集 对 象 获 取 一 个 元 素 样 本 。 
jE 6.1.4 证 将 详解 take () 方 法 


代码 清单 6-3 中 创建 的 掷 货 子 仿真 数据 集 有 几 点 是 需要 特别 注意 的 。 首 先 ， 此 处 创建 的 数据 
集 对 象 myGeneratorDataset 的 数据 量 是 无 限 的 。 因 为 生成 颖 函数 永远 不 会 结束 ， 所 以 我 们 可 
以 不 停 地 从 数据 集 对 象 获取 样本 。 如 果 用 forEachAsync() 或 toArray () 方 法 (参见 6.1.3 市) 
获取 数据 集中 的 元 素 , 方法 会 持续 执行 , 直至 服务 器 或 浏览 器 毅 溃 , 因此 使 用 时 需要 注意 这 一 点 。 
处 理 这 些 对 象 时 ， 需 要 使 用 take (n) 图 数 创建 一 个 新 的 数据 集 ， 该 数据 集 是 无 限 大 数据 集 的 一 
个 有 限 的 子 集 。 之 后 会 详解 这 一 点 。 

其 次 ， 注意 numplaysooFar 本 地 变量 存在 于 数据 集 生 成 右 函 数 的 闭 包 中 。 这 对 于 记录 和 调 
试 生 成 需 函 数 的 调用 次 数 非常 有 用 。 

最 后 ,注意 在 实际 尝试 获取 数据 前 ,数据 其 实 并 不 存在 。 此 处 ,我 们 只 尝试 从 数据 集 获 取 一 
个 样本 。 从 numPlaysSoFar 变量 的 值 上 可 以 看 出 生成 絮 子 数 只 被 调用 了 一 次 。 

用 生成 带 函 数 生成 的 数据 集 非 浓 灵活 且 强 大 。, 它 使 开发 者 可 以 为 模型 配置 来 自 不 同 数据 源 类 
型 的 数据 ， 例 如 数据 库 查 询 得 出 的 数据 、 从 网 络 上 下 载 的 数据 ， 或 来 目 连 接 的 便 件 设备 的 数据 。 
言 息 栏 6-1 提供 了 关于 tf.data.generator() API 的 更 多 细节 。 



































言 息 栏 6-1 tf .data.generator() 参 数 的 细则 
tf.data.generator() 的 API 非 常 灵活 且 强 大 。 它 使 开发 者 可 以 为 模型 配置 来 自 不 同类 
型 数据 源 的 数据 。tf.data.generator() 的 参数 必须 满足 以 下 人 条件 。 

口 即使 没有 参数 ， 该 函数 也 必须 可 调用 。 

口 当 无 参数 调用 时 ， 它 必须 返回 一 个 对 象 。 该 对 象 满 足 迭 代 器 (iterator ) 的 可 迭代 特性 ， 
因为 它 实 现 了 可 迭代 协议 (iterable protocol )。 也 就 是 说 ， 返 回 的 对 象 必 须 实 现 next () 
方法 。 当 对 next () 进 行 无 参 调 用 时 ， 它 应 该 以 {value: ELEMENT, done: false)} 
的 格式 返回 一 个 JavaScript 对 象 ， 以 此 来 传 出 ELEMENT 值 ( 即 元 素 值 )。 当 不 再 有 返 
回 们 时 人 加 (Vl Tderineg gre er 
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JavaScript 的 生成 器 未 后 会 返回 Generator 对 象 , 这 一 点 恰好 满足 上 述 要 求 。 因 此 ， 
它 和 tft.dqata.generator1() 了 有 函数 是 绝 佳 搭配 。 生 成 器 函数 还 能 够 实现 闭 包 本 地 变量 、 从 本 
地 的 硬件 读 取 数据 、 从 网 ee 

表 6-1 使 用 以 下 代码 说 明 如 何 使 用 tf.data.generator ()。 


function*» COUnNnEDowAFromlo0() 1{ 
fa (let 1 = 10>; 1 3 0 1-==) { 
EEC 人 二 于 
} 
】 
Const dataset = tf.data.generator (countDownFrom10).; 


如 果 出 于 某 些 原因 ,你 不 想 使 用 生成 器 函数 ,而 是 想 直接 实现 可 迭代 协议 ,那么 可 以 用 下 
面 的 方式 改写 之 前 的 代码 。 它 们 是 等 效 的 。 


Euanactiaon CountDownFroml0O0Fumace() 1 
le@tE 1 = 10; 
Precturen | 
lesxe 00 
站 人 (1 > 0) 1 
ecu valgedJ adonefialse). 
eels 
return {deone: Crue); 
} 
】 
} 
} 


const dataset = tf.data.generator (countDownFromlO0OFunc).;} 


6.1.3 ” 读 取 数据 集 对 象 中 的 数据 


之 所 以 要 将 数据 表示 为 数据 集 对 象 , 自然 是 为 了 之 后 能 够 再 谈 取 其 中 的 数据 。 创 建 数 据 结构 
却 从 不 读 取 其 中 的 数据 是 一 种 浪费 ,有 两 种 API 可 以 用 于 获取 数据 集 对 象 中 的 数据 。 但 一 般 而 言 ， 
使 用 tf.daata 提供 的 方法 就 足够 了 ， 因 此 它们 并 不 党 用。 通常 ， 开 发 者 会 用 高 阶 API 获取 数据 
集 底 层 存 储 的 数据 。 比 如 ，6.2 节 将 介绍 使 用 model .fitDataset () API 进行 模型 训练 。 该 方法 
可 以 帮 我 们 获取 的 层 的 数据 ， 而 我 们 作为 开发 者 则 无 须 和 底层 的 数据 下 接 打 交 违 。 然 而 ,对 于 调 
试 、 测 试 ， 以 及 更 深入 地 认识 Dataset 对 象 的 工作 原理 而 言 ， 知 道 如 何 直接 获取 数据 集 底 层 的 
数据 仍 是 非常 重要 的 。 

第 一 种 从 数据 集 对 象 读 取 数 据 的 方法 是 使 用 Dataset .toArray () API 以 数据 流 的 形式 进行 
读 取 。 该 函数 的 作用 就 和 它 的 字面 意思 一 样 ， 它 会 扣 历 整个 数据 集 ， 将 数据 集 的 元 系 都 加 入 到 一 
个 数组 ,然后 返回 该 数组 作为 结果 。 在 使 用 该 方法 读 取 数 据 时 应 该 非常 并 导 ,注意 不 要 不 小 心 生 
成 一 个 超出 JavaScript 运行 时 容纳 能 力 的 数组 。 如 果 数 据 集 底层 连接 的 是 一 个 数据 量 非常 大 的 远 
程 数 据 源 ， 或 者 连接 的 是 一 个 可 以 无 限 生 成 数据 的 传 感 硕 ， 就 很 容 多 犯 这 种 错误 。 
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第 二 种 从 数据 集 对 象 读 取 数据 的 方法 是 使 用 daataset.forEachaAsync(f) 对 数据 集中 的 
个 样 例 执行 一 个 函数 。forEachAasync() 的 使 用 方式 与 JavaScript 中 数组 和 集合 的 forEach () 
方法 的 使 用 方式 ( 即 JavaScript 原生 的 Array .forEach() 和 Set.forEach() ) 类 似 , 它们 的 参 
数 都 是 一 个 也 数 ， 该 函数 将 逐个 作用 于 数据 中 的 每 个 元 系 。 

需要 寺 别 注意 的 -点 是 ， Dataset.forEachAsync ( ) 和 Dataset .toArray ( ) 都 是 异步 图 
数 。 这 点 和 Array .forEach() 不 同 , 因为 后 者 是 同步 的 。 因 此 , 这 也 是 很 容易 犯错 的 一 个 地 方 。 
Dataset .toArray () 返 回 的 是 一 个 promise 对 象 ， 因 此 如 果 想 用 接近 同步 的 方式 处 理 它 的 话 ， 
需要 对 其 使 用 await 或 者 .then () 。 如 果 忘 记 使 用 await, 那么 promise 不 一 定 会 按 你 预期 的 顺 
友 生 成 结果 ， 这 就 成 了 bug 的 潜在 来 源 。 一 个 常见 的 bug 是 ,在 promise 还 未 得 出 结果 、 但 数据 
集 已 经 届 历 完成 时 谈 取 返回 的 结 有 末 ， 此 时 会 错误 地 以 为 数据 集 是 空 的 。 

Dataset .torEachAsync ( ) 和 站 天 入 站 人 LorEacht.) 之 所 以 一 个 是 异步 的 、 一 个 是 同步 的 
是 因为 数据 集中 的 数据 通常 是 从 一 个 远程 数据 源 创 建 、 计 算 或 下 载 得 到 的 。 此 处 使 用 异步 可 以 使 
我 们 高 效 地 利用 等 待 数据 生成 的 时 间 进 行 计算 。 表 6-2 总 结 了 这 几 种 般 历 数据 集 对 象 的 方法 。 


表 6-2 遍历 数据 集 对 象 的 方法 

















遍历 tf.data.Dataset 


方法 的 作用 示 例 








对 象 的 方法 
.toArray ( ) 异步 地 遍历 整个 数据  _ const a = tft.aqata.array([1，2，3，4，5，6]); 
时 _. const arr = await a.toArray (); 
集 , 将 数据 集 的 元 素 都 console.1log (arr),; 
YY 人 八 粮 2 大 YY 
惟信- 数组 ,然后 返 pe 
回 该 数组 作为 结果 
.forEachAsync (f) 异步 地 遍历 整个 数据 const a = tf.data.array (|[1, 2, 3]); 
await a.forEachAsync(e => console.l1log("hi " + e)); 
集 , 并 对 其 中 的 每 个 元 
和 局 光 // hi 1 
素 执 行 f 函数 fo 


// hi 3 


6.1.4 操作 切 s-data 数据 集 


如 果 能 够 在 未 经 清洗 和 处 理 的 情况 下 ， 和 直接 使 用 数据 源 提供 的 数据 ,这 固然 很 好 。 但 作者 的 
个 人 经 验 是 , 除了 为 教学 或 评估 算法 专门 准备 的 数据 集 之 外 ,实际 情况 几乎 从 来 都 不 是 这 样 。 更 
常见 的 情况 是 , 必须 先 对 数据 进行 某 种 形式 的 转换 , 才 可 以 分 析 它 们 , 或 将 其 用 于 机 天 学 习 任 务 。 
比如 ,原始 数据 通常 包含 很 多 多 余 的 元 杂 ,使 用 数据 前 需要 先 过 滤 这 些 元 系 。 有 时 ,数据 中 的 部 
分 属性 需要 进行 预 处 理 、 序 列 化 或 重 命名 。 或 者 ， 原 始 数据 中 的 元 妹 可 能 是 有 序 排列 的 ， 因 此 必 
须 先 将 其 顺序 打 乱 ,才能 将 它们 用 于 模型 训练 和 评估 。 再 者 ， 还 需要 将 数据 集 划 分 为 彼此 不 重 又 
的 训练 集 和 测试 集 。 正 如 你 所 见 ,， 数 据 预 处 理 几乎 是 不 可 避免 的 。 如 果 你 手头 的 数据 集 已 经 无 须 
数据 清洗 并 且 是 可 开 箱 即 用 的 ， 那 么 一 定 是 有 人 提前 玫 你 做 过 数据 清洗 和 预 处 理 ! 

tf.data.Dataset 提供 了 可 链 式 调用 的 方法 来 执行 这 些 运算 。 表 6-3 中 列 出 了 这 些 方法 ， 
它们 都 会 返回 一 个 新 的 Dataset 对 象 。 但 是 不 要 被 这 一 点 迷惑 ， 误 以 为 这 是 对 数据 集中 所 有 元 
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素 的 复制 或 者 每 次 方法 调用 都 会 志 历 所 有 元 素 | fdats. Dataset APl 会 按 需 加 载 或 转换 数 
据 集中 的 元 素 。 如 采 通 过 链 式 调用 这 些 方法 创建 一 个 新 的 数据 集 , 那么 可 以 将 该 数据 集 看 作 一 个 


小 程序 ， 它 只 有 在 链 式 调用 末尾 的 函数 逢 要 对 菏 元 系 进 行 操作 时 才 会 运行 。 





也 只 有 在 那 一 刻 ， 





Dataset 对 象 才 会 汽 看 调用 链 逐 级 执行 之 前 的 运算 ， 可 能 最 终 会 涉及 从 远程 数据 源 获 取 数 据 。 


tf .data.Dataset 对 象 
的 方法 


.filter (predicate) 


.map (transform) 


.mapAsync ( 


asyncTransform) 


.batchl( 
batchSize, 
smallLastBatch?) 





.Concatenatel 
dataset) 


.repeat (count) 


.take (count) 


.Skip (count) 


方法 的 作用 


返回 一 个 仪 包含 谓词 函数 
( predicate ) 执行 结果 为 
true 的 元 素 的 数据 集 


用 在 map 方法 中 配置 的 函 
数 ， 对 数据 集 对 象 中 的 每 
个 元 素 进行 映射 。 它 会 返 
回 一 个 包含 映射 后 元 系 的 
数据 集 对 象 

和 map 类 似 ,， 但 提供 的 函 
数 必须 是 异步 的 








将 连续 的 元 素 打包 成 独立 
元 素 组 ， 并 在 此 过 程 中 将 
基本 类 型 的 元 素 封装 成 
张 量 





拼接 两 个 数据 集 对 象 中 的 
元 素 ， 从 而 形成 一 个 新 的 
数据 集 对 象 

返回 一 个 新 的 数据 集 对 
象 ， 其 中 的 元 素 是 通过 遍 
历 原 对 象 多 次 或 无 限 次 生 
成 的 

返回 一 个 仅 包 含 前 几 个 
(具体 个 数 由 count 决定 ) 
元 素 的 数据 集 对 象 

返回 一 个 不 包含 前 几 个 
(具体 个 数 由 count 决定 ) 
元 素 的 数据 集 对 象 


表 6-3 tf.data.Dataset 对 象 提供 的 可 链 式 调用 的 方法 


示 例 
myDataset.filter(x => x < 10); 
返回 一 个 新 数据 集 对 象 ， 其 中 仅 包 含 mypataset 中 小 于 10 
的 元 素 
myDataset .map(X => x * 文 ) ; 


返回 一 个 新 数据 集 对 象 ， 其 中 所 有 元 素 都 是 原 元 素 的 平方 











myDataset .mapAsync (fetchAsync); 

假设 fetchAsync 是 能 从 给 定 的 URL 获取 数据 的 异步 函数 ， 

那么 该 函数 执行 后 会 返回 一 个 新 数据 集 对 象 ， 其 中 包含 的 是 

从 每 个 URL 获取 的 数据 

const a = tf.data.arrayl( 
[1 Zr 3 5B; G6; 7 
.batch(4).; 

await a.forEach(e => e.print()),; 





8]) 


// 打印 结果 : 

// Tensor [1, 2, 3, 4] 

// Tensor [5, 6, 7, 8] 
myDatasetl1.concatenate (myDataset2) 

会 返回 一 个 新 的 数据 集 对 象 。 当 读 取 其 中 的 元 素 时 ,会 完 裔 历 
myDataset1 的 所 有 元 素 ， 再 遍历 myDataset2 的 所 有 元 素 
myDataset .rebeat (NUM_EPOCHS ) 

会 将 myDataset 中 的 元 素 重 复 NUM_EPOCHS 次 。 如 果 
NUM_EPOCHS 的 值 为 负 或 undefing, 那么 数据 集中 的 元 素 会 
无 限 循环 下 去 

myDataset.take(10); 

返回 一 个 仅 包 含 myDataset 中 前 10 个 元 素 的 数据 集 对 象 。 
如 果 myDataset 的 总 元 素 量 少 于 10 个 元 素 ， 则 返回 原 对 象 
myDataset .skip(10); 

返回 的 数据 集 对 象 包含 原 对 象 中 除了 前 10 个 元 素 外 的 所 有 
元 素 。 如 果 myDataset 仪 包含 10 个 或 更 少 元 素 ， 该 方法 会 
返回 一 个 空 数据 集 对 象 
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( 续 ) 
tf.data.Dataset 对 象 a 加 
二 7 也 7 | 
.Shufflel 打 乱 原 数 据 集 对 象 中 元 素 const a = tf.data.array ( 
bufferSize, 排序 获得 的 新 数据 集 [1, 2, 3, 4, 5, 6]).shuffle(3),; 
seed? await a.forEach(e => console.log(e)); 





注意 : 每 个 元 素 排 序 的 改变 // prints, e.g., 2, 4, 1, 3, 6, 5 
仅 作 用 于 太 十 为 puffersize ”会 以 随机 顺序 打印 出 1 ~ 6 的 值 。 但 顺序 的 改变 是 局 部 的 ， 
的 窗口 ; 也 就 是 说 ， 超 出 窗 。 也 就 是 说 ， 实 际会 出 现 的 排序 是 所 有 数字 排列 可 能 性 的 子 
口 人 寸 外 的 元 系 的 排序 不 会 ” 集 ， 因 为 窗口 尺寸 小 于 数据 集 的 尺寸 。 例如， 最 后 一 个 元 素 
受到 影响 6 不 可 能 成 为 新 数据 的 第 一 个 元 系 ， 因 为 它 的 移动 范围 超出 
了 buffersize( 即 3) 








可 以 将 这 些 运算 方法 以 链 式 调用 的 方式 串联 起 来 ,形成 简单 但 强大 的 数据 处 理 流水 线 。 例 如 ， 
你 可 以 按照 代码 清单 6-4 中 列 出 的 方法 ,将 数据 集 随 机 划分 为 训练 集 和 测试 集 (参见 
tfjs-examples/iris-fitDataset/data.js )。 


代码 清单 6-4 用 tf.gdata.Dataset 划分 训练 集 和 测试 集 
Const seed = Math.floor!l( 
Math.random() * 10000) ， 
const trainData = tf.data.array (IRIS_ RAW_DATA) 





此 处 对 训练 集 和 测试 集 使 用 了 相同 的 随 








lilletlRIS RAW DATA engthiy Seed)'? 机 种 子 用 于 打 乱 排序 。 如 果 不 这 么 做 ， 

-take (N); 两 个 数据 集 的 排序 改变 会 是 互相 独立 
将 前 N 个 map (preprocessFn); 的 , 从 而 使 一 部 分 样本 既 被 划 为 训练 集 ， 
样 例 划 入 const testData = tf.data.array (IRIS_ RAW_DATA) 也 被 划 为 测试 集 
训练 集 .Shuffle(IRIS_ RAW_DATA.length, seed); 

I “ | 将 除了 前 个 样 例 以 外 的 

ee 样 例 划 入 测试 集 





代码 清单 6-4 中 有 几 点 需要 特别 注意 。 因 为 我 们 希望 随机 地 将 样本 划 入 训练 集 和 测试 集 ， 所 
以 需要 先 将 原 数据 的 排序 打 乱 。 此 处 先 将 前 X 个 样 例 划 入 训练 集 。 随 后 ， 将 除了 前 N 个 样 例 以 
外 的 样 例 划 入 测试 集 。 非 常 重要 的 一 点 是 ,无 论 是 划分 训练 集 还 是 测试 集 , 改变 原 数据 排序 的 方 
式 是 相同 的 。 这 是 为 了 确保 两 个 数据 集中 的 样 例 没有 重 登 。 也 正 因为 如 此 ， 两 个 数据 集 的 划分 采 
用 了 相同 的 随机 种 子 。 

还 有 一 点 需要 特别 注意 ， 此 处 是 在 调用 skip (N) 方 法 后 才 调 用 的 map (preprocessFn) 也 
数 。 其 实 也 可 以 在 调用 skip (N) 方 法 之 前 调用 .map (preprocessFn)。 但 如 采 这 么 做 的 话 ， 即 
使 有 些 元 素 不 属于 某 个 数据 集 ， 还 是 会 对 它们 执行 preprocessFn 图 数 ， 这 是 对 算 力 的 浪费 。 
代码 清单 6-5 验证 了 这 一 现象 。 


代码 清单 6-5 ”验证 先 调用 map () 再 调用 skip () 会 导致 额外 的 计算 


let count 三 0， 























// 一 个 恒 等 函数 。 每 次 调用 它 时 都 会 将 count 变量 加 1 
function identityFn(x) { 
Count += 工 ; 
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return x; 


} 


Console.log('skip before map'); 
await tf.data.array ([1, 2, 3, 4, 5, 6]) 
.Skip(6) < 一 一 一 一 一 先 调 用 skip() 再 调用 map () 
.map (i1dentityFn,) 
.forEachAsync (x => undefined).;} 
console.log( count is S$S{count}  ); 


console.log('map before skip'); 
awalit tf.data.array ([1, 2, 3, 4, 5, 6]) 
.map (identityFn) < 一 一 一 一 一 先 调用 map() 册 调用 skip () 
.Skip(6) 
.forEachAsync (x => undefined).;} 
console.log( count is S{count}.  ); 


// 打印 结果 : 

// Skip before map 
// count is 0 

// map before skip 
// count is 6 


dataset .map() 的 为 一 个 第 见 用 途 是 标准 化 输入 数据 。 不 难 想 象 ， 有些 场景 会 需要 将 输入 
数据 的 均值 标准 化 为 0, 但 是 输入 样 例 的 数量 可 能 是 无 限 的 。 如 果 要 标准 化 数据 ( 即将 每 个 元 素 
减 去 均值 )， 势 必要 先 算出 整个 分 布 的 均值 。 但 是 很 显然 ,计算 一 个 无 限 大 的 数据 集 的 均值 是 不 
现实 的 。 当 然 , 还 可 以 考虑 从 数据 集中 选 出 一 个 有 代表 性 的 子 集 , 然后 将 它 的 均值 作为 整个 数据 
集 均 值 的 参考 。 但 是 很 难 确定 恰好 合适 的 子 集 应 该 有 多 大 。, 假设 一 个 分 布 中 几乎 所 有 的 值 都 是 0， 
但 是 每 1000 万 个 样 例 中 有 1 个 样 例 的 值 为 1e9， 那么 该 分 布 的 均值 为 100。 如 果 只 选取 前 100 万 
个 样 例 用 于 均值 计算 ， 那 就 离 实 际 值 相差 甚 还 了 。 

如 代码 清单 6-6 所 示 ，tf.data.Dataset API 提 供 了 一 种 对 流 式 数据 进行 标准 化 的 方法 。 
从 中 可 以 看 到 ,， 有 两 个 变量 用 于 持续 记录 至 今 处 理 过 的 样 例 数 量 ， 以 及 它们 的 总 和 。 以 这 样 的 方 
式 , 我 们 实现 了 对 流 式 数据 进行 标准 化 。 虽 然 代 码 清单 中 的 代码 是 为 标量 设计 的 , 但 张 量 的 标准 
化 代码 的 结构 与 此 类 似 。 


代码 清单 6-6 用 tf.aqata.map() 标 准 化 流 式 数据 
function newStreamingZeroMeanFn() { | 返回 一 个 单 参数 的 函数 。 它 的 返 



































da 回 值 为 当前 输入 样 例 的 值 和 至 
站 今 所 有 输入 样 例 的 均值 的 差 


return (x) => { 
samplesSoFar += 1; 
SumSoFar += xX; 
const estimatedMean = sumSoFar / samplesSorFar; 
return x - estimatedMean; 


} 
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Const normalizedDatasetl1 = 
UnNOormal1lLzedqDataset1 .map (newStreamingZeroMeanrFn ()); 





const normalizedDataset2 = 


+ 


unNormalizedDataset2.map (newStreamingZeroMeanrFn ()); 


注意 此 处 创建 了 一 个 映射 范 数 ， 其 中 财 包 了 两 个 变量 samplesSoFar 和 sumSoFar。 它 们 
分 别 是 样 例 数 和 所 有 样 例 总 和 的 计数 需 。 这 是 为 了 能 够 独立 标准 化 多 个 数据 集 。 如 果 不 使 用 财 包 ， 
两 个 数据 集会 使 用 相同 的 变量 记录 样 例 个 数 和 样 例 总 和 。 但 这 种 方法 也 有 其 局 限 性 ， 尤 其 是 
sumSoFar 和 samplesSoFar 有 一 定 可 能 发 生 数 值 汶 出 ， 因 此 需要 特别 注意 。 
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tf.data 的 流 数 据 处 理 API 确实 非常 好 用 。 我 们 也 见证 了 如 何 用 它 优 雅 地 处 理 数据 。 但 
tf.data API 的 主要 目的 是 简化 训练 和 评估 时 对 模型 的 数据 配置 。tf .data 在 这 方面 又 能 提供 
哪些 便利 呢 ? 

从 第 2 草 到 现在 ， 每 当 需 要 训练 模型 时 ， 我 们 的 首选 都 是 model .fit() API。 正 如 之 前 所 
说 的 , model .fit () 有 两 个 必 填 的 参数 一 一 xs 和 ys。xs 变量 必须 是 表示 输入 样 例 集合 的 张 量 。 
ys 变量 也 必须 是 张 量 ， 它 表示 与 输入 样 例 对 应 的 输出 目标 。 上 一 章 的 代码 清单 5-11 中 提供 了 一 
个 使 用 model .fit () 的 例子 , 其 中 使 用 了 下 面 的 代码 训练 并 微调 使 用 合成 数据 的 目标 检测 模型 。 


model.fit(images, targets, modelFitArgs) 


代码 中 的 images 默认 是 一 个 形状 为 [2000，224，224，3] 的 四 阶 张 量 。 它 表示 2000 个 
图 像 的 集合 。modelFitArgs 参数 为 优化 融 指 定 了 批 次 尺寸 (默认 值 为 128 )。 总 结 一 下 ， 
TensorFlow.js 需 要 处 理 的 是 位 于 内 存 " 中 的 2000 个 样 例 组 成 的 集合 .这 就 是 需要 处 理 的 全 部 数据 。 
TensorFlow.js 每 个 轮 次 会 处 理 其 中 的 128 个 样 例 。 

如 末 这 些 数据 还 不 够 , 训练 需要 更 大 的 数据 集 ， 该 怎么 办 呢 ? 在 这 种 情况 下 ， 就 要 在 两 个 不 
是 很 理想 的 选项 中 进行 选择 ,第 一 个 选项 是 加 载 一 个 大 得 多 的 数组 ,然后 看 它 是 否 足 以 完成 训练 。 
如 果 新 的 数组 大 到 一 定 程度 , 那么 TensorFlow.js 最 终 会 耗 尽 内 存 , 然后 抛 出 一 个 异常 ,指明 它 无 
法 为 训练 集 分 配 内 存 。 第 二 个 选项 是 将 数据 拆 分 成 单独 的 数据 块 , 然后 将 其 上 传 到 GPU 的 显存 ， 
随后 对 每 个 数据 块 调用 mogde1 .fit()。 这 种 方法 需要 合理 调度 model .fit (), 每 当 有 数据 块 准 
备 就 绪 ， 就 逐个 处 理 它 们 。 如 采 训 练 过 程 会 持 组 多 个 轮 次 , 那么 还 需要 再 回去 重新 加 载 更 多 的 数 
据 块 。 每 次 的 加 载 都 会 按照 一 定 顺 序 〈 一 般 是 乱 序 ) 进行 。 这 种 数据 调度 不 仅 厂 烦 而 且 多 出 错 。 
它 还 会 影响 TensorFlow.js 目 带 的 轮 次 计数 器 和 报告 使 用 的 度量 指标 ,我 们 需要 靠 自 己 来 保证 上 述 
这 些 能 够 无 颖 衔接 。 

为 此 ，TensorFlow.js 提供 了 一 个 便利 得 多 的 工具 


model.fitDataset (dataset, modelFitDatasetArgs) 


























model fitDataset (API 





J 此 处 的 内 存 指 GPU 的 显存 ， 它 的 容量 通常 比 系统 的 内 存 要 小 ! 
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model .fitDataset () 的 第 一 个 参数 是 数据 集 对 象 , 但 它 必须 符合 一 定 规则 。 具 体 而 言 , 数 
据 集 对 象 必 须 能 够 生成 具有 以 下 两 个 属性 的 对 象 。 第 一 个 属性 名 为 xs 日 类 型 为 Tensor， 表 示 
样 例 批 次 的 村 征 。 该 属性 和 model.fit() 的 xs 参数 类 似 ， 但 此 处 数据 集 对 象 会 逐个 生成 每 个 
批 次 的 元 素 ， 而 不 是 一 次 输出 整个 数组 。 第 二 个 必要 的 属性 名 为 vs， 表示 输入 样 例 对 应 的 目标 
张 量 。" 和 modqel .fit() 相 比 ，model .fitpataset () 有 很 多 优 热 。 其 中 最 重要 的 是 ， 我 们 不 
必 编 写 代 人 码 去 管理 和 调度 加 载 数 据 集 的 数据 块 了 。 框架 会 负责 高 效 地 以 数据 流 的 方式 按 需 处 理 这 
些 数据 块 。 同 时 ， 数 据 集 对 象 内 置 的 绥 存 机 制 可 以 预 加 载 预期 需要 的 数据 ， 这 使 计算 更 为 高 效 。 
此 外 ， 它 的 功能 还 更 为 强大 ， 因 为 它 可 以 训练 远 超出 GPU 显存 容量 的 数据 集 。 事 实 上 ， 现 在 对 
数据 集 大 小 的 唯一 限制 因素 不 过 是 训练 时 间 ， 只 要 能 够 获得 新 的 训练 样 例 ， 就 能 够 不 断 训练 。 
tfjs-examples 代码 仓库 中 的 data-generator (数据 生成 带 ) 示例 诠释 了 这 一 点 。 

这 个 示例 为 一 个 简单 的 卡 牌 游戏 训练 了 一 个 模型 。 该 模型 可 以 估计 取胜 的 概率 。 就 和 之 前 一 
样 ， 你 可 以 用 如 下 命令 下 载 并 运行 示例 程序 。 


git clone https://github.com/tensorflow/tfjs-examples .git 




















cd tfjs-examples/data-generator 
yarn 
yarn watch 


这 是 个 简单 的 卡 牌 游 戏 ， 玩 法 和 扑克 牌 类 似 。 两 个 玩家 都 有 N 张 牌 (N 为 正 整数 )， 每 张 牌 
都 用 1 ~ 13 范围 内 的 一 个 随机 整数 表示 。 游 戏 规则 如 下 。 
口 有 最 多 同 数值 牌 的 玩家 获胜 。 例 如， 如 果 玩 家 1 有 三 张 数值 相同 的 牌 ， 而 玩家 2 只 有 一 对 
相同 的 牌 ， 那么 玩家 1 获胜 。 
口 如 果 两 个 玩家 同 数值 牌 的 数量 相同 ， 那么 拥有 同 数 值 牌 组 的 数值 最 大 的 玩家 获胜 。 例 如 ， 
一 对 5 和 一 对 4 相 比 ， 一 对 5 胜 。 
口 如 果 两 个 人 都 没 对 子 ， 那 么 拥有 数值 最 大 的 那 张 牌 的 玩家 获胜 。 
口 如 果 牌 的 数值 打 平 了 ， 那 么 以 五 五 开 的 概率 随机 判定 输赢 。 
不 难看 出 ， 双 方 获胜 的 概率 是 相同 的 。 因 此 ， 在 不 知道 牌 面 的 情况 下 ， 随 机 猜测 博弈 结果 只 
有 约 一 半 的 正确 率 。 因 此 , 我 们 要 构建 并 训练 一 个 模型 ， 让 它 根据 玩家 1 的 牌 面 预测 该 玩家 是 否 
能 获胜 ,从 图 6-1 中 的 截图 可 见 ,该 模型 对 于 这 个 问题 大 约 能 达到 7$% 的 准确 率 。. 这 是 使 用 250 000 
个 样 例 ( 50 个 轮 次 x 每 轮 次 50 个 批 次 x 每 批 次 100 个 样 例 ) 做 到 的 。 这 个 仿真 使 用 5 张 牌 作为 
手 牌 数 ,但 是 使 用 不 同 的 手 牌 数 也 能 达到 相近 的 准确 率 。 如 果 增 加 训练 的 批 次 和 轮 次 ， 可 以 进 一 
步 提 升 预测 的 准确 率 。 但 是 即使 是 当前 75% 的 准确 率 , 也 已 经 让 有 智能 预测 辅助 的 玩家 拥有 了 和 
普通 玩家 相 比 的 巨大 优势 。 这 是 因为 前 者 能 够 更 好 地 预测 取胜 的 概率 。 


























J 对 于 有 多 个 输入 的 模型 ， 此 处 的 参数 为 特征 张 量 数组 ， 而 不 是 单个 特征 张 量 。 这 种 表示 模式 对 于 需要 拟 合 多 个 目 
标的 模型 也 是 类 似 的 。 
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GAME SIMULATION | TRAIN & EVALUATE MODEI 
Click "Simulate Game" to run one play of the game. Three numbers will be randomly selected for cach player. The Training model... Approximately 2.1599 seconds per epoch 
"win" status will indicate whether player one's 'win' status according to the following rules.. 
i batchesPerEpoch 50 
。 The player with the largest group of same-valued cards wins. E.g., if player 1 has three-of-a-kind, and player 2 Epochs to train 50 


only has a pair, player 1 wins. 
。 Ifboth players have the same sized maximal group, then the player with the group with the largest face value 


Wins, E.g., A pair of 5s beats a pair of 4s， Expected simulations = batchSize * batchesPerEpoch * epochs = 250000 ET TT Ee 
。 lfneither player even has a pair, the player with the highest single card wins. 


. Ties are settled randomly, 50/50. stop-training 


Number of cards per hand 5 



































[| TRAINING PROGRESS 
Simulation Results (Simulations so far = 300001) NN pt sa oi 
0.6} O oss O acc 
和 _ _ O val_loss 070] O 〇 val_acc 
layer 1 ns co | opponent oo a win? a 
Pe ll rr II oo | 9 ms 
— 一 一 一 0.2: 
Game to features and label. Note that the features fed into the model only include values visible to player 1, since WW 
We want to predict whether player 1 will win. 085 
0.0+4 : 
0 20 40 0 20 40 
[0,0,0,0,0,0,1,0,1,1,1.1,0] lteration lteration 
Label: 0 Note that since cach player has an equal chance of winning, we expect that a completely naive estimator will have an 








accuracy of 0.5. An estimator with perfect accuracy is not possible, since the estimator does not have access to the 
opponent playcr's hand. 





DATA PlPELINI 
tf.dataFromGenerator(simulation?) || USE TRAINED MODEI 
‘map(gameToFeaturesAndLabel) card 0 13 
.batch( 100 ) card 1 13 
ka( |S ) card 2|13 
.toArray0 BeElEE Sse lr card 3 13 
card 4 13 





eel Output of model: 1.000 


Note that this prediction ls larger for hands that the model considers more likely to win, but are not calibrated 
probabilities. 


图 6-1 数据 生成 硕 示 例 程序 的 UI。UI 的 左上 角 显示 了 游戏 规则 和 启动 游戏 的 按钮 。 它 的 下 面 是 
生成 的 特征 和 数据 处 理 流水 线 。 单 击 “dataset-to-array” 按 钮 会 启动 下 面 的 数据 处理 流 水 
线 。 该 流水 线 会 模拟 游戏 的 运行 ， 生成 特征 ,将 特征 样本 封装 成 批 次 ,然后 选取 其 中 的 
个 批 次 转换 成 数组 ， 最 后 将 它 打印 出 来 。UI 的 右上 角 显 示 的 是 数据 处 理 流水 线 的 一 些 可 调 
参数 ,用户 单 击 “train-model-using-fit-dataset” 按钮 后 , 程序 会 切换 到 model .fitDataset () 
调用 ,然后 开始 从 流水 线 拉 取样 例 数据 。 它 下 方 的 图 表 显 示 了 模型 的 准确 率 曲 线 。 在 UI 
的 右 下 角 ， 用户 可 以 手动 输入 玩家 1 的 手 牌 ,然后 单 击 “predict” 按 钮 使 用 模型 做 出 获胜 
概率 预测 。 预 测 值 越 大 ， 说 明 模 型 越 确定 该 手 牌 会 获胜 。 同 数值 的 牌 是 没有 总 数 限制 的 ， 
此 也 可 能 出 现 $ 张 一 样 的 手 牌 


如 果 此 处 使 用 mogdel .fit () 训 练 模 型 ， 那 么 需要 创建 并 存储 250 000 个 张 量 作为 样 例 ， 用 
来 表示 输入 特征 。 这 个 示例 中 的 数据 还 比较 小 ， ee 儿 下 个 注 反 数 。 但 是 对 上 一 草 的 目 
标 检 测 任务 而 言 ，250 000 个 样 例会 占用 150GB 的 显存 ?。 这 远 远 超出 了 2019 年 绝 大 部 分 浏览 
折 能 使 用 的 内 存 。 

接 下 来 深入 了 解 本 示例 涉及 的 各 个 环 让 。 先 来 看 看 数据 集 是 如 何 生成 的 。 代 码 清 单 6-7 中 中 
代码 〈 摘 目地 | js， 并 有 所 人 简化 ) 和 代码 清单 6-3 中 的 随机 掷 骨 子 
成 硕 代 码 类 似 。 不 过 它 稍 微 复 杂 些 ， 因 为 此 处 需要 存储 更 多 信息 。 















































GD 样 例 数量 x 宽 x 高 x 颜色 维度 x Int32 的 字 节 数 = 250 000x224x224x3x4 ( 字 节 )。 
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代码 清单 6-7 ”创建 纸牌 游戏 的 tf.dqata.Dataset 对 象 
import * as game from './game'; 
game 模块 会 提供 两 个 函数 : randomHand () 
let numSimulationsSoFar = 0; 和 compareHands () 。 它 们 分 别 负责 生成 卡 
牌 游戏 的 手 牌 和 比较 玩家 两 组 手 牌 的 大 小 
function runOneGamePlay() { 
const playerlHand = game.randomHand ( ) ; 
const player2Hand = game.randomHand(); 
const playerlWin = game.compareHands ( 、 了 一 吕 
playerlHand, player2Hand);} 生成 玩家 的 手 牌 
比较 玩家 两 组 手 numSimulationsSoFar+i++; 
牌 的 大 小 ， 并 判 return {playerlHand, player2Hand, playerlWin}; 
断 谁 赢得 了 游戏 } 返回 两 手 牌 以 及 
比较 的 结果 





function* gameGeneratorFunction() f{ 
while (true) { 
yield runOneGamepPlay (); 
} 





export const GAME GENERATOR DATASET = 
tf.data.generator (gameGeneratorFunction).; 





awalit GAME GENERATOR _DATASET .take(1) .forEachn( 
e => console.1log(e)); 


// 打印 结果 如 下 

// {playerilHand: [11, 9, 7, 8], 
// player2Hand: [10, 9, 5, 11], 
// playerlWin: 1} 


将 上 面 这 个 简单 的 数据 集 生 成 益 和 游戏 逻辑 结合 到 一 起 后 , 就 可 以 开始 将 数据 格式 化 为 更 适 
合 当 前 学 习 任 务 的 表示 了 。 具 体 而 言 ， 当 前 的 任务 是 根据 player1Hand 预测 player1Win。 为 
了 实现 预测 日 标 ， 需要 让 数据 集 对 象 以 [batchOfrFeatures, batchOfTargetsl] 的 格式 返回 元 
素 。 元 素 中 的 特征 部 分 来 目 玩 家 1 的 手 牌 ,代码 清单 6-8 中 的 代码 摘 目 坊 s-examples/data-generator/ 
index.js， 并 有 上 所 简化 。 


代码 清单 6-8 构建 手 牌 的 特征 数据 集 对 象 


function gameToFeaturesAndLabel (gameState) { 




















return tf.tidy(() => { 
const playerlHand = tf.tensorld(gameState.playerlHand, 'int32'); 
const handOneHot = tf.oneHotl( co 
将 一 局 游戏 的 状态 作为 输入 ， 


tf.sub(playerlHand, tf.scalar(1, 'int32°')), 


\ 一 Pm 齐 外 太 人 
game .GAME STATE.max card value); 返回 玩家 1 手 牌 和 输赢 状态 的 





特征 表示 
const features = tf.sum(handOneHot, 0); 
const label = tf.tensorld([gameState.playerlWin]); 
return {xs: features, ys: label}; handOneHot 的 形状 为 [numcards, max_ 
9 value_card] 。 这 个 函数 会 对 每 种 牌 的 数量 
} 求 和 ， 得 到 一 个 形状 为 [max_value_card] 


的 张 量 
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let BATCH SIZE = 50;} 





export const TRAINING DATASET = 
GAME_GENERATOR_DATASET.map (gameToFeaturesAndLabel) 











.batch (BATCH SIZE).; < 

awdlit TRAINING 万 ATASET .LSKEI(I) .forEacehl 将 BATCH_sIZE 数量 的 连续 元 素 

e => console.log([e.shape, e.shapel])); 组 成 一 个 新 元 素 。 如 果 这 些 元 素 

原本 不 是 张 量 ， 该 函数 还 会 将 

// 打印 出 张 量 的 形状 : JavaScript 数组 中 的 数据 转换 为 
2 [iS0: 13],. 1T80,. 41] 张 量 





将 游戏 输出 对 象 中 的 每 个 元 素 转换 成 两 个 张 量 组 
成 的 数组 : 一 个 是 特征 张 量 ， 另 一 个 是 目标 张 量 


将 数据 转换 为 合适 的 表示 后 ， 便 可 以 通过 model .fitpDataset () 将 它 应 用 到 模型 上 ， 如 代 
但 清单 6-9 ( 摘 目 ts-examples/data-generator/index.js， 并 有 所 人 简化 ) 所 示 。 
代码 清单 6-9 用 数据 集 对 象 创 建 并 训练 模型 
启动 模型 的 训练 





// 创建 模型 定义 每 个 轮 次 使 用 多 少 批 次 。 因 为 数据 
madel SS tf. Saadential ()y 集 的 大 小 没有 限制 ， 所 以 必须 定义 批 次 
model, add Tres Tayers. dense (i 的 大 小 来 告诉 TensorFlow.js 何 时 执行 轮 





inputShape: [game.GAME_STATE.max_cardq_value]l ， 次 结尾 的 回调 函数 
units: 20, 


activation: 'relu' 
})); 
model.add(tf.layers.dense({units: 20, activation: 'relu'})); 
model.add(tf.layers.dense({units: 1, activation: 'sigmoid'})); 
// 训练 模型 





await model.fitDataset (TRAINING DATASET, { 





batehnesPperEooch: Ul.get batchesPperEpoch'l(), | 
epochs: ui.getEpochsToTrain(), 


validationData: TRAINING DATASET, 





将 训练 集 设置 为 验证 集 。 通常 而 
言 这 不 是 个 好 做 法 , 因为 由 此 得 








validationBatches: 10, 设置 每 次 评估 时 ， 到 的 性 能 评估 是 有 偏差 的 ,但 此 
callbacker 1 从 验证 集 取 出 的 处 不 是 问题 , 因为 数据 集 生 成 器 
onEpochEnd: async (epoch, logs) => 批 次 娄 的 特性 可 以 保证 训练 和 验证 用 
工人 TOWN hlstory 的 数据 是 独立 的 
ui.lossContainerElement, trainLogs, ['loss', 'val 1oss']) 
tfvis.show.history ( 
ui.accuracyContainerElement, trainLogs, ['acc', 'val_acc'], 


{ZoomToFitACcuracy: true}) 


和 model .fit() 一 样 ，model. 
] fitDataset() 创 建 的 历史 记录 
也 和 tfvis 模块 兼容 


如 代码 清单 6-9 所 示 ， 主 模型 拟 合 数据 集 就 和 拟 合 一 对 x 张 量 、y 张 量 一 样 简单 。 只 要 确 你 
数据 集 生 成 的 张 量 值 拥有 正确 的 格式 , 那么 一 切 就 会 照 稼 工作 。 在 此 同时 还 获得 了 一 些 祝 外 的 优 
势 ,例如 可 以 从 远程 数据 源 以 流 的 方式 获取 数据 ,并 且 无 须 目 己 管 理 数据 的 调度 。 此 处 除了 使 用 
的 是 数据 集 而 不 是 一 对 张 量 这 点 不 同 外 ， 还 有 几 个 配置 对 象 上 的 区 别 值得 专门 讨论 。 
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口 batchesPerEpoch: 如 代码 清单 6-9 所 示 , modqel1 .fitDataset () 的 配置 对 象 有 一 个 握 
外 的 字段 用 于 配置 每 个 轮 次 使 用 多 少 批 次 数 。 之 前 将 全 部 数据 百 接 传 人 modael1.fit () 时， 
非常 容易 计算 整个 数据 集 包 含 多 少 个 样 例 。 这 一 点 只 看 data.shape[0] 束 一 目 了 然 ! 使 
用 fitDataset() 时 ， 有 两 种 方式 告诉 TensorFlow.js 一 个 轮 次 什么 时 候 结束 。 第 一 种 方 
式 是 使 用 上 述 的 配置 对 象 字 段 设 置 每 轮 次 的 批 次 数 。 模 型 训练 这 么 多 批 次 后 ， 
fitDataset () 调 用 会 执行 onEpochEnd 和 onEpochStart 回调 图 数 。 第 二 种 方式 是 等 
待 整 个 数据 集 被 处 理 完毕 。 可 以 通过 将 代码 清单 6-7 中 的 








while (true) { ... } 

改 为 

for (let i = 0; i<ui.getBatchesPerEpoch(); i++) { ... } 
来 模拟 这 种 现象 。 


DvalidationData: 使 用 fitDataset() 时 ， validationData 也 可 以 是 一 个 数据 集 对 
象 。 但 这 不 是 必需 的 。 如 果 你 想 要 的 话 ， 此 处 也 可 以 使 用 张 量 。 验 证 集 对 象 返 回 的 元 系 
的 格式 必须 满足 和 训练 集 对 象 一 样 的 要 求 。 

D validationBatches: 如 果 验 证 集 来 目 数 据 集 对 象 ， 那 么 需要 告诉 TensorFlow.js， 一 次 
完整 的 评 佑 需要 从 数据 集 对 象 获取 多 少 样 例 。 如 果 不 进 行 配置 ,TensorFlow.js 会 持续 从 数 
据 集 抽 取样 例 , 直到 数据 集 返 回 标 明 数 据 集 处 理 完 成 的 信号 。 因 为 代码 清单 6-7 中 的 数据 
集 的 生成 可 函数 可 以 无 限 生 成 数据 ， 所 以 这 永远 不 会 发 生 ， 程 序 因此 会 卡 住 。 

和 镜 下 的 配置 和 mogdel .fit () API 的 配置 一 模 一 样 ， 因 此 无 须 做 更 多 调整 。 


6.3 ”获取 数据 的 弟 见 模式 


任何 开发 者 都 需要 以 茶 种 形式 将 数据 和 模型 连接 到 一 起 。 这 些 连接 的 数据 可 以 有 不 同 的 格式 
和 来 源 ， 包括 框 染 内 置 的 数据 集 、 闭 名 的 实验 性 数据 集 ( 例如 MNIST 数据 集 )、 完 全 目 定 义 的 数 
据 集 和 企业 内 部 使 用 专 有 格式 的 数据 集 。 本 节 中 将 介绍 如 何 利 用 tf.aata 以 简单 且 可 维护 的 方 
式 建 立 这 些 连 接 。 


6.3.1 处理 CSV 格式 的 数据 


除了 处 理 常见 的 内 置 数 据 集 外 ， 最 常见 的 数据 获取 方式 是 加 载 以 某 种 文件 格式 预存 的 数据 。 
数据 文件 通常 会 以 逗号 分 隔 值 (comma seperated value, CSV ) 格式 "保存 。 这 是 因为 它 简单 、 可 
读 且 拥有 广泛 的 兼容 性 。 其 他 数据 格式 在 存储 效率 和 读 取 速率 上 有 一 定 优势 , 但 CSV 可 以 说 是 
数据 集 的 通用 语 。JavaScript 中 经 常会 涉及 需要 从 一 些 HTTP 端点 方便 地 流 式 传输 数据 的 场景 。 


























中 截至 2019 年 1 月， 组 织 数据 科学 和 机 需 学 习 竞 赛 的 网 站 Kaggle 已 拥有 13 971 个 公有 数据 集 ， 其 中 2/3 使 用 的 是 
CSYV 格式 。 
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这 就 是 为 何 TensorFlow.js 提供 对 从 CSV 文件 流 式 获取 数据 和 处 理 数据 的 原生 文 持 。6.1.2 下 中 简 
要 地 介绍 了 如 何以 CSV 文件 为 基础 创建 tf.data.Dataset 对 象 , 本 节 将 深入 了 解 TensorFlow.]js 
和 CSV 相关 的 API， 并 展示 tf .data 如 何 能 极 大 地 简化 这 类 数据 源 的 处 理 。 我 们 将 用 一 个 示例 
程序 来 说 明 这 一 点 。 该 程序 将 建立 和 远程 CSV 数据 集 的 连接 ,打印 出 其 结构 ， 算 出 数据 集 的 元 
素数 ， 最 后 让 用 户 选 择 并 打印 出 指定 的 单个 样 例 。 用 下 面 这 些 熟 悉 的 命令 下 载 并 运行 示例 程序 。 


git clone https://github.com/tensorflow/tfjs-examples.git 





cd tfjs-examples/data-csyv 
yarn && yarn watch 


程序 启动 完成 后 会 弹出 一 个 Web 应 用 程序 ,在 该 应 用 程序 中 输入 一 个 存储 于 某 服 务 硕 的 CSV 
文件 的 URL， 或 通过 单 击 4 个 推荐 的 数据 集 的 按钮 之 一 ( 比如 “Boston Housing CSV”) 来 日 动 
填充 URL， 参 见 图 6-2 中 的 演示 。URL 输入 框 下 方 有 3 个 按钮 ， 分别 对 应 3 个 行为 : (1) 统计 数 
据 集 的 行 数 ; (2) 获取 CSV 文件 中 的 列 名 ( 如 果 有 的 话 ) (3) 获取 并 打印 出 该 数据 集 指定 行 的 数 
据 。 接 下 来 看 看 这 背后 的 工作 原理 是 什么 ，tf .data API 又 是 如 何 将 数据 获取 变 得 如 此 简单 的 。 














TensorFlow.js: Working with CSV files in tfjs-data 





Enter the URL of your csv file below, or click one of the above buttons to explore some CSVs we've hosted. Note that you may need to update your web host to allow CORS requests in order to 
access your data this way. 


http://path/to/your.csv 


Select a CSV URL and begin by counting the number of 
rows in the CSV. 





click "Count rows" 


click "Get column names" 








select an index and click "Get a sample row" 





sample index (zero-index): 2 











图 6-2 用 二 s-data 模块 读 取 CSV 文件 的 示例 程序 的 Web UI。 单 击 一 个 上 面 列 出 的 CSV 数据 
集 的 按钮 。 或 者 如 果 你 已 在 服务 器 存 有 CSV 文件 , 在 URL 输入 框 中 手动 输入 其 地 址 。 
注意 ， 如 果 你 选择 后 者 ， 记 得 在 CSV 所 在 的 服务 器 为 CSV 启用 CORS 访问 权限 


正如 我 们 之 前 所 见 ， 可 以 用 如 下 命令 轻松 地 基于 远程 CSV 文件 创建 tfs-data 数据 集 对 象 。 


const myData = tf.data.csv (url).; 





其 中 的 url 是 http://、https://、 邮 e:// 等 协议 的 字符 串 标 识 符 ， 或 者 RequestInfo 对 象 。 这 个 方 
法 不 会 回 URL 发 出 任何 请 求 核 验 文件 是 否 存 在 或 可 读 取 。 这 是 因为 数据 是 延迟 加 载 的 。 在 代码 
清单 6-10 中 , myData.forEach () 这 个 异步 调用 触发 了 CSYV 的 数据 读 取 。forEach () 中 声明 的 
为 数 会 将 数据 集中 的 元 系 转 换 为 字符 串 并 打印 出 来 。 但 是 该 和 迭代 融 函 数 还 可 以 做 些 其 他 的 事情 ， 
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比如 为 数据 集中 的 每 个 元 素 在 UI 中 生成 对 应 的 DOM 元 素 ， 或 者 为 某 些 报告 计算 出 所 需 的 统计 
数据 。 
代码 清单 6-10 ”打印 出 远程 CSV 文件 的 前 10 行 记录 


Const url = document .getElementById('gqueryURL') .value; 


Sonst WDA = tf.data.csv (url); 将 url 作为 参数 , 调用 Baa 模块 的 
awalt myData.take(10) .ftorEachn (人 tf .aata .csv() 函 数 创建 数据 集 对 象 


x => console.log(JSON.stringify (x)))); 











// 输出 的 形式 如 下 
// {"crim":0.26169, "zn":0, "indus":9.9, "chas":0, "nox":0.544, "rm":6.023, ... 
// ,"medv":19.4} 
// {"crim":5.70818,"zn":0,"indus":18.1,"chas":0,"nox":0.532, "rm":6.75, ... 
// ,"medv":23.7} 
和 

创建 一 个 由 CSV 文件 前 10 行 记 录 组 成 的 数据 集 对 象 . 随后 , 使 用 forEach () 

遍历 数据 集中 的 所 有 元 素 。 注 意 forEgach () 是 一 个 异步 函数 


CSV 数据 集 通 稼 用 第 一 行 ( 即 表 头 ) 存储 数据 集 的 元 信息 ， 包 括 每 列 的 名 字 。 黑 认 情 况 下 ， 
ct.dqata.csv() 会 这 么 假设 。 但 如 果实 际 情况 不 同 , 可 以 用 传人 的 第 二 个 参数 csvconfig 配置 
对 象 以 进行 调整 。 如 有 果 CSV 文件 没有 提供 列 名 ， 可 以 通过 以 下 方式 在 构造 也 数 中 手动 配置 。 

const myData = tf.data.csv (url, { 


hasHeader: false, 
columnNames: ["firstName", "lastName", "id"] 














}); 


如 采 你 手动 配置 columnNames 作为 CSV 数据 集 的 列 名 。 那 么 它 的 优先 级 会 局 于 从 CSV 文 
件 读 出 的 尖 部 行 。 默 认 情 况 下 ， 数 据 集 对 和 象 会 假设 CSV 文件 中 的 第 一 行 是 头 部 行 。 如 果 第 一 行 
不 是 头 部 行 ， 那 么 必须 在 配置 对 象 中 指明 它 不 存在 ， 并 且 手 动 配置 columnNames。 

CSVDataset 对 象 ( 上 myData ) 创建 完成 后 ， 束 可 以 用 dataset .columnNames ( ) 方法 查 
询 它 的 列 名 。 该 方法 会 返回 一 个 由 列 名 组 成 的 有 序 字 符 串 数组 。columnNames () 仪 属于 
CSVDataset 子 类 , 别 的 子 类 的 数据 集 对 象 并 不 一 定 有 该 方法 。 示 例 程序 中 ,Get Column Names” 
按钮 背后 的 回调 吨 数 使 用 的 正 是 这 个 方法 。 查询 列 名 时 ， Lataset 对 象 会 问 参 数 中 提供 的 URL 
发 出 请 求 来 获取 并 处 理 第 一 行 数据 。 这 正 是 代码 清单 6-11 中 的 异步 调用 所 做 的 〈 摘 目 
tfjs-examples/csv-data/index.js， 并 有 所 简化 )。 


代码 清单 6-11 获取 CSV 文件 中 的 列 名 


Const url = document .getElementByIlId('gqueryURL') .value; 























const myData = tf.data.csv (url); 

const columnNames = await myData.columnNames ();} 
console.1log (columnNames).; 向 参数 中 提供 的 CSV 文件 
// 输出 的 形式 如 下 : [ 的 url 发 出 请 求 ， 从 而 获 
// 人 区 前 取 并 处 理 头 部 行 
pA "ptratio", "lstat"] for Boston Housing 


有 了 列 名 后 ， 再 来 获取 数据 集中 特定 一 行 的 数据 。 代 码 清 单 6-12 中 展示 了 Web 应 用 程序 如 
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何 打印 出 CSV 文件 中 选中 的 一 行 数据 .具体 是 哪 行 则 是 用 户 通 过 Web 应 用 程序 UI 中 的 输入 框 提 
供 的 。 为 了 达成 这 一 目标 ， 首 先 用 Dataset .skip() 方 法 创建 一 个 和 原 数 据 集 对 象 几 乎 完全 相 
同 的 新 数据 集 对 象 ， 但 它 会 跳 过 前 n - 1 个 元 素 。 随 后 ,使 用 Dataset .take() 方 法 基于 这 个 新 
数据 集 对 象 创建 一 个 仪 由 单个 元 素 组 成 的 数据 集 对 象 。 最 后 , 使 用 Dataset .toArray () 将 数据 
集中 的 数据 转换 成 一 个 标准 的 JavaScript 数 组。 如 果 一 切 顺 利 ， 最 后 会 得 到 一 个 仅 包 含 指定 行 元 
系 的 数组 。 代 码 清 单 6-12 展示 了 上 述 步骤 ( 摘 上 日 世 s-examples/csv-data/index.js， 并 有 所 简化 )。 


代码 清单 6-12 ”获取 CSV 文件 中 选中 的 一 行 的 数据 

















类/ 皇储 芯 se 
sampleIndex 是 从 Ul 的 DOM dd ee et a 
元 素 提取 出 的 行 数字 url 的 连接 ， 但 此 时 并 不 会 发 出 任何 请 
Const Url = document .getElementById('gqueryURL') .value; 
const sampleIndex = document .getElementById 人 
'whichSampleInput') .valueAsNumber; i 
| 一 个 亲 类 焦 1 ?9 日 会 
const myData = tf.data.csv (url); 二 2 ee a 
const sample = await myData mp ne | 
.Skip(sampleIndex) 
此 时 才 真 正 使 数据 集 对 象 向 url et 创建 一 个 新 数据 集 对 象 ， 
发 出 请 求 ， 拉 取 数 据 。 注 意 ， 返 PO 但 仅 保留 第 1 个 元 素 


回 类 型 是 对 象 数组 。 此 处 ， 该 数 
组 仅 包 含 单个 元 素 。 元 素 的 属性 
对 应 列 名 ， 属 性 值 对 应 各 列 的 值 


console.1log(sample); 

// 波士顿 房价 数据 集 的 输出 如 下 : [{crim: 0.3237，zn: 0, indus: 2.18, ...,， tax: 
// 222, ptratio: 18.7, lstat: 2.94}|] 

// for Boston Housing. 


用 上 述 代码 获得 指定 行 的 数据 后 ， 就 可 以 为 数据 加 上 样式 ， 然 后 将 其 加 入 到 DOM 中 。 如 代 
码 清单 6-12 中 console.1og 的 输出 所 示 (参见 最 后 的 注释 )， 输 出 的 是 一 个 对 象 ， 该 对 象 包含 
列 名 和 行 中 每 个 数据 的 映射 关系 。 有 一 点 需要 注意 : 如 果 指 定 的 行 不 存在 ， 比 如 一 个 数据 集 共 
300 行 ， 但 希望 获取 的 是 第 400 行 数据 ,那么 返回 的 结果 会 是 一 个 空 数组 。 

连接 到 远程 数据 集 时 很 容易 发 生 一 些 和 常见 的 错误 ,例如 使 用 错误 的 URL 或 验证 信息 。 在 这 
些 场景 中 ， 最 好 捕获 这 些 异常 ， 并 和 癌 用 户 显 示 一 个 合理 的 错误 信息 。 因 为 Dataset 对 象 在 需要 
使 用 数据 前 不 会 向 远程 文件 发 送 请 求 ， 所 以 要 注意 在 正确 的 地 方 编写 异常 处 理 代码 。 代 码 清 单 
6-13 包含 一 段 简短 的 示例 代码 ， 展 示 了 如 何 编写 这 个 CSV 数据 获取 Web 应 用 程序 的 异常 处 理 代 
码 (摘自 钨 s-examples/csv-data/index.js， 并 有 所 简化 )。 关于 如 何 连接 有 刁 份 认证 保护 的 CSV 文 
件 ， 参 见 信 息 栏 6-2。 
代码 清单 6-13 ”处 理 连 接 失 败 造 成 的 异常 


const url = 'http://some.bad.url'; 


const sampleIndex = document .getElementById!( 在 此 处 使 用 try 语句 是 无 效 的 ， 因 为 


























'whichSampleIinput') .valueAsNumber; 此 处 还 没有 向 url 发 送 请 求 
const myData = tf.data.csv (url).; 
let columnNames; 
Er 4 
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columnNames = awalt myData.columnNames () ， 


} catch (e) 1{ 


如 果 和 连接 失败 ， 
此 处 会 抛 出 异常 


ui.updateColumnNamesMessage( Could not connect to S{url}. ); 


} 


在 6.2 市 中 ， 我 们 学 习 过 如 何 使 用 mogdel .fitDataset () 方 法 。 该 方法 要 求 数据 集 能 以 特 
定 的 格式 生成 元 素 。 正 如 之 前 所 说 的 ， 生 成 的 元 系 必 须 是 拥有 两 个 属性 的 对 象 xs，ys}。 其 中 
xs 是 表示 输入 批 次 的 张 量 ,ys 是 表示 其 对 应 目标 的 张 量 。 默 认 条 件 下 ，CSYV 数据 集 返 回 的 元 素 
都 是 JavaScript 对 象 。 但 也 可 以 配置 数据 集 对 象 ， 使 其 返回 的 元 系 格 式 更 接近 训练 所 需 的 格式 。 
为 此 ， 需 要 使 用 tf.data.csv() 的 csvConfig.columnConfigs 字段 。 假 设 有 -个 关于 高 尔 
夫 球 的 CSV 文件 。 它 由 三 列 组 成 :“club”( 球 杆 )、“strength”( 力道 ) 和 “distance”( 距离 )。 如 
果 想 根据 球 杆 和 挥 杆 力 道 预 测 出 球 飞 出 的 距离 ， 那 么 可 以 使 用 一 个 也 数 将 这 些 列 映射 到 xs 和 
































ys。 当 然 ， 还 有 一 种 更 简单 的 方式 ， 即 配置 CSV 数据 集 对 象 ， 来 让 它 自 动 做 到 这 一 点 。 表 6-4 
展示 了 如 何 配 置 CSV 数据 集 对 象 ， 去 分 离 特 征 和 标签 属性 ， 并 将 它们 封装 为 批 次 ， 以 此 作为 
model .fitDataset () 的 输入 。 


表 6-4 配置 CSV 数据 集 对 象 ， 使 其 输出 适用 于 model .fitDataset () 的 元 素 


数据 集 对 象 的 创建 和 
配置 方式 


创建 数据 集 对 象 的 代码 





dataset .take(1) .toArray() [0] 的 执行 
结果 (数据 集 对 象 返 回 的 第 一 个 元 素 ) 
{club: 1 


dataset = tf.data.csv (csvURL) j 


使 用 默认 配置 的 CSV 数据 
集 对 象 

在 columnconfigs 中 配置 
标签 的 CSV 数据 集 对 象 


在 columnconfigs 中 配置 
标签 ， 并 将 特征 和 标签 封装 
为 批 次 的 CSV 数据 集 对 象 


在 columConfigs 中 配置 
标签 ， 将 特征 和 标签 映射 成 
数值 数组 ， 最 后 将 结果 封装 
为 批 次 的 CSV 数据 集 对 象 





columnConfigs = 





{distance: {isLabel: true}}.; 





dataset = tf.data.csyv (csvURL, 
{columnConfigs}); 


columnConfigs = 





{distance: {isLabel: true}}.,; 


dataset = tf.data 
.CSV (CSVURL, 





{columnConfigs}) 
.batch(128); 
columnConfigs = {distance: 





true}}; 
dataset = tf.data 
.CSV (CSVURL, 


{isLabel: 





{columnConfigs}) 
.map( ({xs, ys}) => 
{ 
return 


{xs :Object.values (xs), 


ys:Object.values (ys)}; 
}) 
.batch(128); 


strength: 45 
distance: 200} 


(BE GD 1, 
ys: {distance: 


strength: 45}, 
200}} 


[xs: {club: Tensor, 
strength: Tensor}, 
ys: {distance: Tensor}] 


这 三 个 张 量 的 形状 都 是 [128] 


{xXxs: Tensor, ys: Tensor} 

注 苇 上映 里 隙 数 返 回 的 数组 中 的 元 双 的 格式 为 
{xs: [number, number], ys: [number]}, 
batch 因数 会 日 动 将 数值 数组 转换 为 张 量 。 
因此 第 一 个 张 量 (xs ) 的 形状 为 [128，2]， 
第 二 个 张 量 (ys ) 的 形状 为 [128，1] 
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言 妃 栏 6-2 ”获取 有 身份 认证 保护 的 CSV 数据 

在 之 前 的 示例 中 , 仅 通过 在 参数 中 提供 URL, 就 建立 了 和 远程 文件 的 连接 ,这 对 于 Node.js 
环境 和 浏览 器 环境 都 很 有 效 ， 并 且 使 用 起 来 非常 便捷 。 然 而 ， 有 时 数据 是 受 身 份 认证 保护 的 ， 
因此 需要 为 Request 对 象 提 供 更 多 参数 。 如 下 面 的 代码 所 示 ， 在 tt.dqata.csv() API 中， 
可 以 用 RequestInfo 对 象 替 代 纯 字符 串 形 式 的 URL。 除 了 添加 人 额外 的 身份 认证 参数 外 ,数据 
集 对 象 较 之 前 并 无 不 同 。 
onst url = htto://Dath/to/yYour/Drivate. COV 
Go em even 


Eonst ABPI KEY = 'adoc0efl1234567897 
requestIinfo.headers.append('Authorization', API KEY) ，; 


VY YY YY 


loom em De el eels 


6.3.2 用 tf.data.webcam() 获 取 视 频数 据 


TensorFlowjs 最 邻 人 兴奋 的 应 用 之 一 就 是 用 移动 设备 内 置 传 感 融 数 据 直 接 训练 和 使 用 机 需 
学 习 模 型 。 用 内 置 的 加 速度 计 识 别 动作 ? 用 内 置 的 麦克 风 识 别 声 音 或 语音 ” 用 内 置 的 摄像 头 进行 
视觉 识别 以 辅助 用 户 的 操作 ? 有 太 多 竺 挖掘 的 好 创意 了 ， 而 这 一 切 才刚 刚 开 始 。 

在 第 5 章 中 ， 我 们 在 迁移 学 习 的 语 境 下 ， 探 索 了 如 何 使 用 来 自 网 络 摄像 涉 和 麦克 风 的 数据 。 
比如 , 我 们 见证 了 如 何 用 摄像 头 控制 《 吃 豆 人 游戏 , 以 及 如 何 用 麦克 风 数 据 微 调 口 令 识 别 系统 。 
虽然 不 是 每 种 传 感 硕 数据 都 可 以 通过 API 调 用 便捷 地 获取 ， 但 是 tf .data 为 从 网 络 摄像 头 获 取 
数据 提供 了 一 个 简单 易 用 的 API。 让 我 们 一 起 来 探索 它 的 工作 原理 ， 以 及 如 何 用 它 和 预 训练 模型 
进行 预测 。 

得 益 于 tf .gata API, 我 们 可 以 非常 容易 地 创建 一 个 能 从 网 络 摄像 头 获取 图 像 的 数据 集 。 该 
数据 集 的 生成 器 函数 能 够 以 流 的 形式 生成 来 自 网 络 摄像 头 的 图 像 。 代 码 清 单 6-14 展示 了 一 个 简 
单 示例 ， 该 示例 来 自 TensorFlow.js 的 官方 文档 。 示 例 代码 中 第 一 个 值得 注意 的 部 分 是 对 
tf .data.webcam() 的 调用 , 该 构造 函数 会 返回 一 个 网 络 摄像 头 图 像 的 迭代 器 , 它 的 参数 是 一 个 
可 选 的 HTML 元 素 。 这 个 构造 也 数 只 适用 于 浏览 器 环境 。 如 果 在 Node.js 环境 中 调用 它 , 或 者 当 
前 环境 下 没有 可 用 的 网 络 摄 像 尖 ,那么 构造 孔 数 会 抛 出 一 个 异常 并 指明 其 产生 的 原因 。 除 此 之 外 ， 
浏览 需 在 打开 网 络 摄像 头 之 前 还 会 请 求 用 户 的 许可 。 如 果 用 户 拒绝 打开 摄像 头 , 那么 构造 函数 也 
会 掀 出 异常 。 为 了 提供 更 好 的 用 户 体 验 ， 开发 者 应 该 考虑 到 这 些 情况 ,在 异常 发 生 时 间 用 户 提供 
友好 的 反馈 信息 。 


代码 清单 6-14 用 tf.qdqata.webcam() 和 HTML 元 素 创 建 数据 集 
该 元 素 会 负责 显示 来 自 网 络 摄像 头 调用 图 像 数据 集 对 象 的 构造 函数 。 参 数 中 















































; ee WE ent 的 HTML 元 素 负 责 显示 来 自 网 络 摄像 头 的 
Wi 视频 ， 并 决定 了 创建 出 的 张 量 的 形状 
const videoElement document .createElement ('video').; 
videoElement .width 100; 
videoElement .height = 100; 








Const webcam = await tf.data.webcam(videoElement).， 
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const img = await webcam.capture(); 
img .print(); 


ee 一 停止 视频 流 并 暂停 网 络 
从 视频 流 中 获取 一 帧 图 像 ， 摄像 头 的 迭代 器 


并 将 图 像 输 出 为 一 个 张 量 


创建 网 络 摄像 头 的 欠 代 怖 时 , 很 重要 的 一 点 是 让 和 迭代 需 知 道 要 生成 的 张 量 的 形状 。 有 两 种 方 
法 来 做 到 这 一 点 。 代 码 清单 6-14 展示 了 第 一 种 方法 ， 即 用 参数 中 提供 的 HTML 元 系 的 形状 来 决 
定 。 如 采 张 量 的 形状 需要 和 HITML 元 系 的 形状 不 同 ， 或 者 没 必 要 在 UI 中 显示 视频 ， 那 么 可 以 通 
过 配置 对 象 来 配置 预期 的 张 量 形状 ， 如 代码 清单 6-15 所 示 。 注 意 ， 此 处 的 HIML 元 素 值 为 
undefinedq， 也 就 是 说 API 会 在 DOM 中 创建 一 个 隐藏 的 元 素 ， 作 为 视频 数据 的 句柄 。 


代码 清单 6-15 ”用 配置 对 象 创 建 一 个 简单 的 视频 数据 集 对 象 




















const videoElement = undefined; 用 配置 对 象 ， 而 不 是 HTML 元素 ， 创 建 
const webcamConfig = { 视频 数据 集 对 象 的 迁 代 器 。 对 于 有 多 个 
facingMode: "user '， 摄像 头 的 设备 ， 此 处 还 为 其 指定 了 使 用 
resizemidth; 100， 的 摄像 头 。user 指 设备 的 前 置 摄像 头 ， 
resizeHeight: 100}; 还 可 以 使 用 environment 来 选择 设备 
const webcam = await tf.data.webcaml 的 后 置 摄像 头 
videoElement, webcamConfig); < 





配置 对 象 还 有 一 个 用 途 是 剪裁 或 改变 视频 流 的 尺寸 。 通 过 同时 使 用 HTML 元 素 和 配置 对 象 ， 
视频 数据 集 对 象 的 API 让 开发 者 可 以 设置 衣 裁 的 位 置 及 输出 的 大 寸 。 输 出 张 量 会 通过 质 值 目 动 调 
整 为 预期 的 大 寸 。 代 码 清单 6-16 提供 了 这 一 用 法 的 示例 。 示 例 中 的 代码 从 正方 形 的 视频 中 选择 
本 一 个 长 方形 的 剪裁 窗口 ， 这 么 做 减 小 了 输出 数据 流 的 人 大 寸 ， 使 其 适用 于 较 小 的 模型 。 
代码 清单 6-16 ” 裁 甬 并 缩放 来 目 网 络 摄像 头 的 数据 


const videoElement document .createElement ('video').; 
videoElement .width 300; 


videoElement.height = 300; 
如 果 没 有 额外 的 配置 ，videoElement 会 决 


const webcamConfig = { 定 输出 的 尺寸 ， 即 300 像素 x 300 像素 
resizeWidth: 150, 


resizeHeight: 100, 从 原 视频 截取 一 个 
CenterCrop: true 150 x 100 的 窗口 


截取 的 原点 为 原 视 频 的 中 心 





ys 


const webcam = await tf.data.webcaml 


1deoEl 导 | Confi 人 ee a ve 
ee 从 视频 数据 集 对 象 的 迭代 器 获取 的 数 
据 是 由 HTML 元 素 和 webcamConfig 

配置 对 象 共 同 决定 的 


这 种 数据 集 对 象 和 我 们 之 前 见 过 的 数据 集 对 和 象 有 几 处 明显 日 重要 的 区 别 。 例 如 ， 此 处 的 视频 
数据 集 对 象 产 生 的 数据 取决 于 数据 获取 的 时 机 。 这 点 和 CSV 数据 集 对 和 象 完全 不 同 , 因为 后 者 无 论 
医 取 数据 快慢 ， 虱 能 获得 预期 的 各 行 数据 。 力 外 ， 只 要 用 户 永 意 ， 来 日 网 络 摄像 尖 的 视频 数据 样 
本 可 以 是 无 限 获 取 的 。 因 此 ，API 的 调用 者 在 获取 完 想 要 的 数据 后 就 必须 显 式 地 俘 止 数据 流 。 














6.3 ”获取 数据 的 常见 模式 195 


可 以 使 用 capture() 方 法 从 数据 集 的 迭代 右 获 取 图 像 数 据 。 它 会 返回 一 个 售 有 最 新 帧 的 张 
量 。 可 以 将 该 张 量 用 于 后 续 的 机 融 学 习 任 务 ， 但 用 完 后 一 定 要 记得 进行 垃圾 回收 ,否则 会 造成 内 
存 泄 漏 。 因 为 异步 处 理 网 络 摄像 头 数据 的 复杂 性 , 所 以 最 好 直接 在 欠 代 需 返 回 的 岁 像 上 进行 预 处 
理 ， 而 不 是 使 用 tf.aata 提供 的 延 后 执行 的 map () 方 法 。 

也 就 是 说 ， 不 要 像 下 面 这 样 使 用 aata.map () 方 法 处 理 数据 : 

// 反例 : 


let webcam = await tfd.webcam(myElement) 








webcam = webcam.map (myProcessingFunction); 
const imgTensor = webcam.capture(),; 

// 使 用 imgTensor 

tf.dispose(imgTensor) 


而 是 应 该 征 接 将 预 处 理 函 数 用 于 迭代 名 返回 的 图 像 。 


// 正 例 : 


let webcam = awalt tfd.webcam(myElement).; 





Const imgTensor = myPreprocessingFunction (webcam.capture());} 
// 使 用 imgTensor 
tf.dispose(imgTensor) 


视频 数据 集 对 象 不 能 使 用 forEach() 和 toArray () 方 法 。 如 果 需 要 处 理 多 帧 图 像 ， 
tf.data.webcam() 的 用 户 应 该 目 定 义 获 取 多 帧 图 像 的 循环 方式 。 比 如 ， 以 合理 的 帧 率 调用 
tf.nextFrame () 和 capture() 方 法 可 以 做 到 这 一 点 。 此 处 不 能 使 用 forEach () 是 有 原因 的 。 
如 果 使 用 它 的 话 ，TensorFlow.js 会 以 JavaScript 的 执行 速率 不 断 地 从 设备 获取 网 像 数 据 。 这 通常 
意味 着 张 量 创 建 的 频率 会 超过 设备 的 帧 率 ， 从 而 造成 图 像 数 据 的 重复 和 算 力 的 浪费 。 同 理 , 也 不 
能 将 网 络 摄像 头 数据 集 直 接 作为 参数 传人 model .fit () 方 法 。 

代码 清单 6-17 人 简要 地 展示 了 第 5 章 介 绍 过 的 , 用 网 络 摄像 头 控制 《 吃 豆 人 ) 游戏 的 示例 (项 
日 名 为 webcam-transfer-learning ) 的 推断 循环 。 注 意 ， 只 要 isPredicting 的 值 为 true， 外 层 
的 循环 就 会 持续 下 去 。isPredicting 是 从 通过 UI 元 素 控 制 的 。 循环 内 部 的 tf.nextFrame () 
调用 会 控制 循环 运行 的 频率 ,使 其 和 UI 的 刷新 率 保 持 一 致 。 下 面 的 代码 摘 目 垢 s-examples/ 


webcam-transfer-learning/index.js 文件 。 


代码 清单 6-17 在 推断 循环 中 使 用 tf .gqata.webcam() 的 API 


en 从 网 络 摄像 头 获取 一 帧 图 像 , 并 将 其 像素 
return (awalt webcam.Capture() ) 值 标准 化 到 -1 一 1 的 区 间 。 它 会 返回 一 个 
ee 形状 为 [1，w，h，ecj] 的 图 像 批 次 〈 批 次 
.torFloat() Cs 
.div (tf.scalar (127)) 中 仅 有 一 个 元 素 ) 
.Sub(tf.scalar(1)).，; 




















此 处 的 webcam 指 tfa .webcam 调用 返回 的 迭 
while (isPredicting) { 代 器 (参见 代码 清单 6-18 中 的 init() 方 法 ) 
Const ijimg = await getlimage(),; 





从 网 络 摄 像 头 达 代 器 
const predictedClass = tf.tidy(() => 1 获取 下 一 帧 图 像 
// 接收 从 网 络 摄 像 头 选 代 器 获取 的 图 像 
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// 处 理 图 像 并 做 出 预测 …… 等 待 UI 的 下 一 帧 ， 
然后 再 进行 预测 
await tf.nextFrame().; 


} 
} 

最 后 一 个 注意 事项 : 处 理 网 络 援 像 头 数据 时 ,在 用 数据 流 做 预测 前 ,最 好 先 获 取 、 处 理 并 垃 
圾 回收 原 图 像 数 据 。 这 么 做 有 以 下 两 个 原因 。 背 先 ， 将 图 像 的 张 量 数据 和 完 传 入 模型， 可 以 保证 模 
型 的 权重 已 加 载 到 GPU 的 显存 ， 从 而 避免 模型 局 动 时 的 卡 顿 。 其 次 ， 这 能 给 摄像 头 便 件 一 些 时 
间 预 热 ， 从 而 尽早 开始 生成 真正 可 用 的 图 像 。 根 据 便 件 的 不 同 , 有 的 摄像 头 在 启动 时 会 生成 一 些 
空 日 的 图 像 。 代 人 码 清单 6-18 展示 了 《上 吃 豆 人 2 示例 程序 是 如 何 做 到 这 一 点 的 (代码 摘 目 


webcam-transfer-learning/index.js )。 


代码 清单 6-18 ”用 tf.gdata.webcam() 创 建 视频 数据 集 对 象 
async function init() { 

Gy | 创建 视频 数据 集 对 象 。 此 处 的 webcam 

webcam = await tfd.webcanml 元 素 是 一 个 位 于 DOM 中 的 视频 元 素 
document .getElementById('webcam',)); 

} catch (e) 1{ 
console.1log(e); 
document .getElementBylId('no-webcam') .style.display = 'block'; 

】 

truncatedMobileNet = await loadTruncatedMobileNet ( ) ; 











ui.init(); 


// 预 热 模型 。 将 模型 权重 加 载 到 GPU 并 编译 底层 的 WepGL 程序 ， 
// 从 而 加 速 从 摄像 头 获取 数据 的 初始 速度 





Const ScreenShot = await webcam.capture();} 
truncatedMobileNet .predict (screenShot.expandDims (0)); 
screenShot .dispose(); < 二 
| webcam.capture() 返回 的 什 针对 从 摄像 头 获 取 的 第 一 帧 画 
是 一 个 张 量 。 需 要 及 时 将 其 垃圾 面 做 预测 ， 从 而 确保 模型 已 完全 
回收 ， 以 避免 内 存 泄漏 加 载 到 GPU 硬件 上 





6.3.3 用 tf.data.microphone() 锋 取 音 频数 据 


除了 图 像 数 据 以 外 ，tf .data 还 提供 了 一 些 从 设备 的 麦克 风 获 取 音 频数 据 的 工具 。 和 摄像 
头 API 类似, 麦克风 API 会 创建 一 个 可 以 延迟 加 载 的 迭代 融 。 它 使 调用 者 可 以 按 需 获 取 音 频数 据 ， 
而 且 这 些 音频 数据 会 被 自动 封装 成 适用 于 模型 进一步 处 理 的 张 量 。 麦 克 风 API 的 典型 使 用 场景 是 
获取 预测 所 需 的 数据 。 虽 然 并 非 完全 不 可 能 , 但 它 并 不 适用 于 模型 的 训练 ， 因 为 很 难 用 它 将 音频 
流 和 标签 封 闻 在 一 起 。 

代码 清单 6-19 展示 了 一 个 如 何 用 tf.data.microphone() API 获 取 1 秒 长 的 音频 数据 的 示 
例 。 注 意 ， 下 面 的 代码 运行 时 ， 会 触发 浏览 器 向 用 户 请 求 麦克 风 的 使 用 权限 。 
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代码 清单 6-19 用 tt.dqata.microphone() API 获 取 1 秒 长 的 音频 数据 











const mic = await tf.data.microphone({ 七- 一 一 
FE 0271, 用 户 可 以 用 该 配置 对 象 控制 音频 
COlumiTirincateLength: 232, 数据 的 一 些 常 见 参 数 。 我 们 将 在 
numperameeDeregoecCtrodram: 43， 正文 中 详解 其 中 一 部 分 参数 
sampleRateHz: 44100, 
smoothingTimeConstant: 0, 开始 从 麦克 风 
netuoaeeDeeEoorame treue, 获取 音频 数据 音频 的 时 频谱 数据 会 被 表 
includeWaveform: true 示 为 形状 为 [43，232，1] 
Fy 的 张 量 
const audioData = await mlc.capture() :， 
Const spectrogramTensor = audioData.spectrogram; 
const waveformTensor = audioData .waveform; 
mic. stop(); 除了 时 频谱 数据 外 ， 也 可 以 直接 获取 波 
_ 形 数据 。 波形 数据 的 形状 为 [fftsize * 
| 最 后 用 stop() 方 法 停止 numFramesPerSpectrogram, 1]， 即 
音频 流 ， 并 关闭 麦克 风 [44032, 1] 


麦克 人 API 提供 了 一 系列 可 配置 参数 ,让 用 户 可 以 微调 快速 健 里 叶 变 换 ( fast Fourier transform， 
FFT ) 处 理 首 频 数据 的 方式 。 它 们 可 以 控制 每 个 时 频谱 包含 的 频 域 数据 的 数量 ， 同 时 还 可 以 控制 
首 频 时 频谱 的 频段 , 这 对 于 仅 需要 获取 人 耳 可 听 到 的 语音 数据 的 场景 非常 有 用 。 下 面 是 对 代码 清 
单 6-19 中 列 出 的 参数 的 详解 。 
D sampleRateHz: 44100 
@ 麦克 风波 形 的 采样 率 。 它 必须 正好 是 44 100 或 48 000， 并 与 设备 自身 的 采样 率 匹 配 。 
如 果 该 值 和 设备 提供 的 采样 率 不 匹配 ， 则 API 会 抛 出 一 个 异常 。 
afftSize: 1024 
四 控制 计算 每 个 不 重合 的 首 频 “ 帆 ” 的 样本 量 。 每 帧 都 会 经 过 FFT 转换 。 帧 越 大 ， 健 里 
叶 变 换 后 的 频 域 分 辨 驻 就 越 蜗 ， 但 时 间 分 辨识 就 越 小 。 这 是 因为 这 么 做 的 话 ， 帧 内 的 
时 间 信 息 就 丢失 了 。 
必须 在 16 ~ 8192 范围 内 (包括 16 和 8192 )， 并 为 2 的 窒 。 此 处 ，1024 意味 着 单个 频 
段 的 能 量 取决 于 频段 对 应 的 1024 个 样本 。 
@ 注意 最 局 可 测 的 频率 等 于 采样 率 的 一 半 ， 或 者 说 约 为 22kHz。 
[colummTruncateLengths: 232 
加 控制 保留 的 频 域 信息 量 。 默 认 条 件 下 ,每 个 首 频 帧 包含 fftsize 个 数据 点 ( 此 处 是 1024， 
包含 0 ~ 22kHz 的 整个 频谱 ) 然后 ， 我 们 通 稼 只 关注 较 低 的 频段 ， 因 为 人 耳 一 般 仅 能 
听 到 0 ~ 5kHz 的 频段 。 故 而 此 处 仅 保留 0 ~ 5kHz 的 部 分 。 
加 此 处 使 用 232 是 因为 (5kHz/22kHz) x 1024 232。 
DD numFramesPerSpectrogram: 43 
四 FFT 转换 主要 针对 一 系列 不 重合 的 首 频 样本 窗口 (或 者 说 帧 )， 并 以 此 创建 时 频谱 。 
该 参数 可 以 控制 每 个 创建 的 时 频谱 包含 多 少 样 本 窗口 。 创 建 的 时 频谱 形状 为 
[numFramesPerSpectrogram, fftSize, 1]。o 此 处 为 L443,. ZzZ32; | 
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加 每 帧 的 时 长 为 sampleRate/fftsize。 此 人 处 为 44kHz x 1024， 约 为 0.023 秒 。 
四 帧 与 帧 之 间 没 有 延迟 ， 因 此 整个 时 频谱 的 时 长 为 43 x 0.023， 约 为 1 秒 。 
smoothingTimeConstant: 0 
当前 帧 和 之 前 帧 的 重合 度 。 该 值 必 须 在 0~ 1 光 围 内 。 
includeSpectogram: True 
四 如 所 设 为 True， 会 计算 时 频谱 ， 并 将 其 作为 张 量 返回 。 如 采 并 不 需要 计算 时 频谱 ， 比 
如 只 需要 音频 的 波形 数据 时 ， 可 以 将 其 设 为 False。 
UD includeWaveform: True 
四 如 来 设 为 True， 会 以 张 量 的 形式 将 波形 数据 保存 下 来 。 如 果 不 需 要 波形 数据 ， 可 以 将 
其 设 为 False。 注意 ， includeSpectrogram 和 ijncludeWaveform 中 至 少 一 个 必须 
为 True。 如 条 将 它们 都 设 为 False, 程序 就 会 出 现 寞 常 。 此 处 为 了 保险 起 见 ， 将 两 个 
参数 都 设 为 True， 但 一 般 的 应 用 程序 中 只 需要 使 用 两 个 参数 中 的 一 个 。 

和 视频 流 类 似 , 首 频 流 也 需要 一 些 时 间 预 热 ,麦克 风 初 期 产生 的 数据 可 能 是 完全 无 法 使 用 的 。 
数据 流 中 经 背 会 出 现 接 近 堆 或 无 限 大 的 数值 , 但 实际 值 和 其 持续 时 间 则 取决 于 设备 和 平台 。 最 好 
的 解决 方案 是 先 “ 预 热 ” 麦 克 风 一 会 儿 ， 委 和 痉 前 几 个 样 例 ， 且 到 数据 流 中 不 再 有 有 措 关 数据 。 一 般 
而 言 ， 预 热 200 坚 秒 后 ， 数 据 就 会 变 得 干净 许多 。 
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原始 数据 几乎 无 一 例外 地 存在 各 种 各 样 的 问题 。 如 果 你 使 用 的 是 自己 的 数据 源 , 并 且 还 没 来 
得 及 和 数据 清洗 专家 一 起 梳理 所 有 的 特征 及 其 分 布 与 关联 , 那么 数据 中 很 可 能 会 存在 削弱 或 破坏 
机 禹 学 习 模 型 的 缺陷 。 作 为 本 书 的 作者 ,我 们 十 分 肯定 这 一 事实 。 这 是 因为 我 们 之 前 为 很 多 不 同 
领域 的 机 融 学 习 系 统 的 构建 提供 过 指导 , 同时 自己 也 构建 过 不 少 这 样 的 系统 , 这 些 经 验 都 验证 了 
这 一 点 。 最 常见 的 表征 是 模型 不 收敛 ,或 者 收敛 时 的 准确 率 远 低 于 预期 水 平 。 男 一 种 更 难 缠 日 难 
以 调试 的 现象 是 模型 不 但 收 钱 了 , 而 且 在 验证 集 和 测试 集 上 表现 还 不 错 , 但 在 生产 环境 中 的 性 能 
不 上 尽 如 人 意 。 有 时 间 题 确实 是 模型 本 里 或 者 超 参 数 导致 的 ， 其 至 仅仅 是 不 走运 。 但是， 至 今 绝 大 
部 分 问题 的 症结 所 在 都 是 数据 的 缺陷 。 

我 们 之 前 见 过 的 数据 集 〈 例 如 MNIST 手写 数字 数据 集 、 语 音 口令 数据 集 和 总 尾 人 花 数 据 集 ) 
都 经 过 预先 处 理 。 也 就 是 说 , 事先 已 经 有 人 去 除了 数据 中 的 无 效 样 例 ， 并且 将 其 格式 转换 为 适用 
于 机 稀 学 习 的 格式 , 同时 还 用 一 些 我 们 未 曾 提 过 的 数据 科学 技巧 对 其 进行 了 额外 的 处 理 。 数据 的 
缺陷 有 多 种 表现 形式 ,包括 缺失 的 字段 、 互 相关 联 的 样本 和 偏 态 分 布 。 数据 处 理 是 一 个 非常 丰 宦 
日 复 洒 多 变 的 话题 ， 相 关 的 技巧 足以 单独 写成 一 本 书 。 事实 上 , 确实 有 这 样 的 书 。 例如， 更 多 细 
节 可 以 参考 Ashley Davis 所 著 的 Data Wrangling with JavaScript。 

数据 科学 家 和 数据 管理 员 在 很 多 公司 已 经 成 为 正式 的 职位 ,这些 专 业 人 士 使 用 的 工具 和 遵循 
的 最 佳 实 践 是 非常 多 样 的 , 并 且 往 往 取 决 于 具体 的 应 用 领域 。 本 市 中 将 介绍 一 些 这 方面 的 基础 知 
识 和 工具 ， 从 而 避免 一 些 令 人 愧 恼 的 情况 发 生 ， 比 如 调试 模型 很 久 , 最 后 却 发 现 是 数据 本 身 有 缺 
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陷 。 对 于 值得 深入 挖掘 的 数据 科学 技巧 ， 书 中 还 将 提供 相关 的 参考 信息 ,这 样 你 就 可 以 目 行 深入 
了 解 。 


6.4.1 数据 理论 


在 了 解 如 何 检 测 和 修复 有 缺陷 的 数据 前 ,我们 必须 先 了 解 好 的 数据 是 什么 样 的 。 很 多 机 医学 
习 领 域 中 的 基础 理论 基于 一 个 重要 的 前 提 ， 即 数据 来 目 某 种 概率 分 布 《probability distribution )。 
在 这 一 前 提 下 ， 训 练 集 是 独立 样本 ( sample ) 的 集合 。 每 个 样本 都 可 以 用 (x, y) 这 一 对 数值 表示 ， 
其 中 yy 部 分 是 我 们 想 要 从 x 部 分 预测 出 的 结果 。 同 样 是 基于 这 一 前 提 ， 测 试 集 也 是 样本 的 集合 ， 
这 些 样本 和 训练 集中 的 样本 来 自 完全 相同 的 分 布 。 训练 集 和 测试 集 间 仅 有 一 个 关键 区 别 : 在 推 岂 
阶段 ,样本 是 不 包含 y 部 分 的 。 这 是 因为 我 们 需要 利用 由 训练 集 习 得 的 数据 间 的 统计 关系 ， 从 样 
本 的 x 部 分 估计 样本 的 y 部 分 。 

由 于 各 种 各 样 的 原因 ， 现 实 中 的 数据 很 难 达 到 这 种 高 度 理想 化 的 预期 。 比 如 ， 如 果 训 练 集 的 
样本 和 测试 集 的 样本 来 自 不 同 的 分 布 ， 那么 就 可 以 说 数据 集 存 在 偏锋 (skew )。 先 来 看 一 个 简单 
的 示例 。 假 设 你 的 目标 是 根据 天 气 和 当前 的 时 间 预 佑 路 次。 如 果 训 练 集中 的 数据 采集 目 周一 和 周 
二 ， 而 测试 集中 的 数据 却 来 自 周 末 ， 那么 模型 准确 率 极 有 可 能 达 不 到 理想 水 平 。 工 作 日 路 况 数据 
的 分 布 和 周末 路 况 数 据 的 分 布 是 明显 不 同 的 。 再 来 看 一 个 例子 。 假设 现在 的 目标 是 构建 一 个 人 脸 
识别 系统 。 假设 用 于 模型 的 人 脸 识 别 训练 集 都 来 自我 们 自己 的 国家 。 那 么 不 难 想 象 , 一旦 模型 使 
用 地 区 的 人 口 组 成 和 当前 不 同 , 系统 就 很 难 正确 地 识别 人 脸 。 你 在 实际 机 各 学 习 场 景 中 可 能 过 到 
的 大 部 分 数据 偏 科 问题 ， 会 比 上 述 的 两 个 示例 更 为 复杂 难 测 。 

数据 集 产生 偏 冬 的 男 一 个 潜在 原因 是 数据 的 收集 过 程 发 生 了 变化 。 以 用 首 频 样本 学 习 识 别 语 
音信 号 为 例 。 假设 在 构建 训练 集 的 过 程 中 ,麦克 风 坏 掉 了 ,然后 添置 了 一 个 新 的 麦克 风 用 于 采集 
剩 下 的 音频 样本 。 那 么 ,数据 集 后 半 段 的 噪声 特性 和 样本 分 布 目 然 会 和 前 半 段 有 所 不 同 。 于 是 很 
可 能 出 现 的 情况 是 , 在 推断 阶段 , 我 们 只 使 用 新 麦克 风 用 于 测试 ， 导致 训练 集 和 测试 集 之 间 产 生 
侦 笠 。 

数据 集 的 仿 斜 在 某 种 意义 上 而 言 是 不 可 避免 的 。 对 于 很 多 应 用 程序 来 说 , 训练 集 一 定 是 来 目 
过 去 的 ,而 应 用 程序 运行 时 使 用 的 数据 必然 来 自 当 下 。 这 些 样 本 背后 的 分 布 必 定 是 会 改变 的 ， 
为 文化 、 兴 趣 、 潮 流 和 其 他 我 们 意料 之 外 的 因素 都 会 随 关 时间 改 变 。 在 这 种 情况 下 ， 我们 所 能 做 
的 只 不 过 是 探究 仿 和 斜 产生 的 原因 ， 并 尺 可 能 最 小 化 它 的 影响 。 正 是 出 于 这 个 原因 , 很 多 已 投入 生 
产 环境 的 模型 仍 会 不 断 用 最 新 的 训练 集 重 新 训练 ， 这 样 才 能 尽量 和 不 断 改 变 的 分 布 保持 一 致 。 

导致 样本 数据 存在 缺陷 的 另 一 个 洪 在 原因 是 数据 间 的 不 独立 。 在 理想 情况 下 , 样本 之 间 应 该 
是 独立 同 分 布 (independent and identically distributed, ID ) 的 。 然 而 ， 在 一 些 数据 集中 ， 一 个 样 
本 往往 包含 关于 下 一 个 样本 是 什么 的 信息 。 这样 的 样本 不 是 独立 的 。 数据 集中 的 样本 出 现 相 互 依 
赖 ， 最 律 见 的 成 因 是 对 数据 的 排序 。 我 们 作为 训练 有 系 的 计算 机 科学 家 ， 往往 会 非常 重视 对 数据 
的 整理 ， 因 为 这 么 做 可 以 种 来 非常 多 的 好 处 ， 包括 数据 讯 取 速 率 的 提升 。 事实 上 ， 即 使 我 们 什么 
都 不 做 ,数据 库 系 统 通 和 党 也 会 帮 我 们 对 数据 进行 组 织 管理 。 因 此 ， 从 数据 源 获取 数据 时 ， 必 须 非 
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各 小 心地 确保 数据 的 排序 并 未 形成 某 种 模式 。 

思考 下 面 这 个 假设 的 场景 。 我们 的 目标 是 构建 一 个 能 够 佑 计 加 州 房 价 的 房地产 应 用 程序 。 同 
时 我 们 已 有 一 个 加 州 周边 房价 的 CSV 数据 集 ”"。 该 数据 集 包 含 加 州 房子 的 各 种 特征 ,包括 房间 数 
和 房 龄 等 。 既 然 我 们 已 经 有 了 数据 并 且 驹 道 它 的 使 用 方法 ， 目 然 会 狼 不 住 直 接 上 手 ， 开 始 用 数据 
集中 的 特征 进行 训练 ， 然 后 预测 出 房价 。 但 是 经 过 上 文 的 介绍 ， 我 们 知道 数据 通常 是 有 缺陷 的 ， 
因此 不 会 急于 开始 构建 模型 ,而 是 决定 先 观 察 数据 的 特性 。 第 一 步 是 针对 一 些 特征 及 其 样本 在 数 
据 集 中 的 索引 作 图 。 这 会 用 到 数据 集 和 Plotly.js 库 。 图 6-3 展示 了 一 些 图 表 的 示例 ,代码 清单 6-20 
(摘自 CodePen， 也 可 从 图 灵 社 区 下 载 资源 ， http://ituring.cn/book/2813 ) 包含 这 些 图 的 绘制 代码 。 





























代码 清单 6-20 用 坊 s-data 构建 一 张 特征 和 样本 索引 关系 的 图 


const plottingData = { 


yu lls 

mode: 'markers', 

type: 'scatter', 

marker: {symbol: 'circle', size: 8} 


const filename = 
'https://storage.googleapis.com/learn]js-data/csv-datasets/california housing train 





:CoV 
Const dataset = tf.data.csv (filename); 
await dataset.take(1000) .forEachAsync (row => { 
plottingData.x.push (1i++); 截取 数据 集 对 象 的 前 1000 个 样 
plottingData.y.push (row['longitude']); 本 ， 包 括 它 们 的 数值 和 索引 。 别 
1 忘 了 在 前 面 加 上 await, 否则 图 
(很 可 能 ) 是 空 芯 
Plotly.newPlot('Pplot', [plottingData], { 很 可 能 》 是 至 的 
width: 700, 
title: 'Longitude feature vs sample index', 
xaxis: {title: 'sample index'}, 


yaxis: {title: 'longitude'} 
上 


假设 我 们 要 将 这 个 数据 集 划 分 为 训练 集 和 测试 集 , 前 500 个 样本 划 入 训练 集 , 剩余 的 划 入 测 
试 集 。 接 下 来 会 发 生 什 么 呢 ? 从 以 上 代码 绘制 出 的 图 可 以 看 出 , 训练 集 和 测试 集中 的 数据 来 目 两 
个 完全 不 同 的 地 理 区 域 。 图 6-3 中 关于 经 度 特征 的 图 道破 了 这 一 问题 的 本 质 : 和 剩余 样本 相 比 ， 
前 一 小 半 样 本 都 来 日 经 度 较 大 ( 偏 西 ) 的 地 区 。 当 然 ， 即使 如 此 ， 这些 特征 可 能 还 包含 其 他 很 多 
有 用 的 信息 ， 并 且 模 型 看 起 来 也 “ 尚 可 ,但 它 上 朋 定 无 法 达到 真正 ID 的 数据 集 能 达到 的 准确 率 
和 质量 。 如 果 我 们 没有 意识 到 上 述 的 数据 特征 ， 可 能 会 在 尝试 不 同 模型 和 超 参数 上 浪费 数 天 ,其 
至 数 周 ， 和 直到 最 后 才 悦 然 大 悟 一 一 应 该 先 看 数据 ! 











中 你 可 以 从 谷歌 机 带 学 习 速 成 课程 的 “加 利 福 尼 亚 州 住房 数据 集 说 明 ” 中 找到 对 此 处 使 用 的 加 州 房价 数据 集 的 描述 。 
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图 6-3 数据 集 的 4 个 特征 和 样本 索引 的 关系 图 。 理 想 情况 下 , 在 一 个 真正 IID 的 数据 集中 , 样本 索 
引 不 应 含有 任何 关于 特征 的 信息 。 然 而 ， 从 上 面 的 部 分 特征 关系 图 可 以 看 出 , y 轴 值 的 分 布 
明显 取决 于 x 轴 的 索引 。 最 令 人 震惊 的 是 ,“ 经 度 ” 特 征 看 起 来 就 像 是 按照 样本 的 索引 大 小 
排序 的 一 般 


有 什么 办 法 能 够 解决 上 述 问 题 吗 ?解决 方案 其 实 相 当 人 简单 。 通 过 随机 打 乱 数据 的 排序 ， 就 
能 去 除 调 数据 和 索引 之 间 的 关联 性 。 然 而 ， 还 有 一 点 务必 要 注意 。TensorFlow.js 数据 集 对 象 内 
置 了 一 个 乱 序 的 方法 ， 但 该 方法 是 针对 流 式 数据 的 ， 并 拥有 固定 的 乱 序 窗 口 。 换 言 之 ， 在 固定 
矿 才 窗口 内 的 数据 会 被 随机 打 乱 顺序 , 但 超出 窗口 范围 的 数据 不 会 受到 影响 。 这 么 做 是 必要 的 ， 
为 TensorFlow.js 数据 集 对 和 象 是 以 流 的 形式 获取 数据 的 ,并 日 潜在 可 获取 的 样本 量 是 无 限 大 的 。 
此 ， 对 于 不 断 生成 数据 的 数据 源 ， 只 有 等 到 所 有 数据 获取 完成 ， 才 能 真正 打 乱 整个 数据 集中 
数据 的 排序 。 

那么 这 种 乱 序 方法 对 上 文 提 到 的 经 度 特征 管用 吗 ? 管 案 是 肯定 的 。 因为 只 要 知道 数据 集 的 尺 
寸 (此 处 为 17 000 )， 就 可 以 将 乱 序 窗口 设置 为 一 个 大 于 整个 数据 集 太 寸 的 数字 ， 这 样 就 大 功 告 
成 了 。 在 乱 序 窗口 非常 大 时 ， 有 窗口 限制 的 乱 序 和 普通 的 针对 所 有 数据 的 乱 序 是 等 效 的 。 如 采 不 
知道 数据 集 的 太 寸 ， 或 者 它 的 大 十 过 大 《也 就 是 说 内 存 无 法 一 次 猴 下 这 么 多 数据 )， 那 么 就 只 能 
凑合 使 用 相对 较 大 的 窗口 。 

图 6-4" 展 示 了 用 tf.data.Dataset 的 shuffle() 方 法 打 乱 数据 排序 的 结果 。 图 6-4 中 的 





























中 创建 图 6-4 的 代码 可 以 从 图 灵 社 区 下 载 : http://ituring.cn/book/2813。 
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几 张 图 分 别 对 应 不 同 的 乱 序 窗 口 太 才 。 


for (let windowSize of [10, 50, 250, 6000]) { 
shuffledDataset = dataset .shuffle (windowSize) ，; 
myPlot (shuffledDataset, windowSize) 

} 


从 图 6-4 中 可 见 ， 即 使 使 用 相对 较 大 的 索引 值 ， 特 征 值 和 样本 索引 在 结构 上 的 相关 性 仍然 清 
蜥 可见。 直到 乱 序 窗口 尺寸 达到 6000 时 ,数据 看 起 来 才 是 ID 的 。 那 么 6000 是 否 就 是 正确 的 窗 
口 尺 寸 呢 ? 会 不 会 250 ~ 6000 范围 内 还 有 别 的 数字 也 同样 有 歼 呢 ? 或 者 6000 也 无 法 解决 数据 中 
可 能 存在 , 但 无 法 从 图 中 看 出 的 分 布 问题 呢 ? 此 处 应 该 使 用 的 策略 是 , 选择 一 个 比 数据 集 样 本 量 
更 大 的 windowsize 来 打 乱 整个 数据 集 的 排序 。 对 由 于 内 存 限 制 、 时 间 约 束 或 数据 集 无 限 大 等 
原因 而 无 法 这 么 做 的 数据 集 而 言 ， 必 须 对 数据 集 进行 更 严谨 的 分 析 。 具 体 而 言 ,还 需要 观察 数据 
的 分 布 来 选择 一 个 合适 的 乱 友 窗口 尺寸 。 
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图 6-4 4 个 乱 序数 据 集 的 经 度 特 征 与 样本 索引 的 关系 图 。 其 中 每 个 数据 集 使 用 的 乱 序 窗口 尺寸 都 有 
所 不 同 ， 介 于 10 个 样本 和 6000 个 样本 之 间 。 从 图 中 可 以 看 出 ， 即 使 窗口 尺寸 为 230， 索 引 
和 特征 值 之 间 仍 有 清晰 可 见 的 关联 。 较 大 的 特征 值 都 集中 于 较 低 的 索引 。 直 到 将 乱 序 窗口 
尺寸 增长 到 几乎 和 数据 集 尺 寸 相 等 的 程度 ， 数 据 集 才 得 以 显露 出 ID 的 特征 





6.4.2 ”检测 并 清洗 数据 中 的 缺陷 


在 上 一 节 中 ,我 们 介绍 了 如 何 检测 与 修复 一 类 数据 问题 ， 即 样本 之 间 的 依赖 。 当 然 ， 这 只 是 
数据 中 可 能 出 现 的 各 种 问题 之 一 。 如 何 处 理 所 有 种 类 的 数据 问题 已 经 远 超出 了 本 书 的 讨论 范 是 。 
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毕竟 数据 就 好 比 代码 ， 可 以 出 错 的 地 方 不 胜 枚 举 。 尺 省 如 此 ， 下面 还 是 会 介绍 其 中 一 部 分 典型 问 
题 。 这 样 ， 当 你 遇 到 这 类 问题 时 ， 就 能 够 识别 出 它们 ,并 知 近 搜索 哪些 关键 词 能 找到 解决 这 些 问 


1. 离 群 值 

离 群 值 ( outlier ) 是 数据 中 一 类 反常 的 值 ， 因 为 它们 并 不 符合 数据 集 背 后 的 分 布 规律 。 例 如 ， 
假设 我 们 在 处 理 一 个 与 医疗 相关 的 数据 集 。 根 据 常 识 ， 我 们 知道 成 年 人 的 体重 通常 在 40 ~ 130kg 
汇 围 内 。 如 果 数 据 中 99.9% 的 样本 都 在 这 个 旋 围 ， 但 时 不 时 会 出 现 一 些 完 全 不 符合 常识 的 样本 
(例如 145 000kg 的 样本 、0kg 的 样本 , 甚至 值 为 NaN? 的 样本 ), 那么 这 些 样本 就 可 被 称 为 离 群 值 。 
简单 地 搜索 一 下 如 何 处 理 离 群 值 ， 你 会 发 现 很 多 不 同 的 观点 。 理 想 情 况 下 , 训练 集中 的 离 群 值 应 
该 不 多 , 并 且 应 该 不 难 定 位 它们 。 可 以 通过 编写 程序 自动 过 滤 这 些 离 群 值 ,然后 用 过 小 后 的 数据 
集 进行 模型 训练 。 当 然 , 在 推断 时 也 应 该 保持 使 用 一 致 的 数据 处 理 逻 辑 ， 否则 就 会 使 数据 产生 偏 
斜 。 因 此 ， 系 统 应 该 以 和 处 理 训 练 集 时 相同 的 逻辑 检测 用 户 输入 的 样本 是 否 是 离 群 值 。 如 果 是 ， 
系统 可 以 告知 用 户 必 须 使 用 不 同 的 值 。 

另 一 种 在 特征 层面 处 理 离 群 值 的 稼 见方 法 是 给 数据 议定 合理 的 最 小 值 和 最 大 值 。 比 如 ,此 处 
可 以 将 原 体 重 奉 换 为 

weight = Math.min (MAX WEIGHT, Math.max(weight, MIN_ WEIGHT)).; 

如 果 这 人 么 做 ,还 可 以 再 添加 一 个 新 特征 。 该 特征 代表 离 群 值 是 否 被 蔡 换 为 最 小 值 或 最 大 值 。 
这 样 就 可 以 将 原本 就 是 40kg 的 样本 和 被 蔡 换 成 40kg 的 样本 ( 原 为 -5kg ) 区 分 开 。 接 下 来 模型 就 
可 以 利用 这 一 新 特征 学 习 离 群 值 和 目标 值 之 间 的 联系 ， 如 果 它 们 之 间 确 实 存在 联系 的 话 。 


lisOutlierWeight = weight > MAX_WEIGHT | weight < MIN_WEIGHT; 






























































2. 数据 的 缺失 

我 们 经 第 会 过 到 样本 缺少 菏 些 特征 值 的 情况 。 可 能 导 公 这 种 情况 的 有 很 多 原因 。 有 时 是 因为 
数值 采集 日 手工 填写 的 表单 ,填写 人 有 时 会 省 略 部 分 选项 。 有 时 是 因为 传 感 带 坏 了 ,或 者 在 数据 
收集 时 没有 开局 。 表 或 者 ,对 于 有 些 样本 ， 这些 特征 值 本 里 就 不 适用 。 例如, 一 个 从 未 出 售 过 的 
房子 不 会 有 最 近 的 售 价 记 录 。 同 理 ， 不 使 用 电话 的 人 也 不 可 能 有 电话 号 码 。 

就 和 离 群 值 一 样 ,同样 有 很 多 方法 处 理 数 据 缺 失 的 情况 ,而 且 数 据 科学 家 对 于 哪 种 场景 适用 
哪 种 方法 也 持 不 同意 见 。 要 判断 一 个 处 理 方法 是 否 合适 , 要 根据 多 个 因素 而 定 ， 其 中 包括 一 个 特 
征 缺 失 的 概率 是 只 取决 于 它 目 身 ， 还 是 可 以 和 其 他 特征 有 关 。 信 息 栏 6-3 概述 了 缺失 数据 的 不 同 


种 类 。 
































J 如 果 输 入 特征 中 含有 NaN 值 ， 那 么 它 会 在 模型 中 传播 得 到 处 都 是 。 
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信息 栏 6-3 缺失 数据 的 不 同 种 类 

随机 缺失 (missing at random, MAR) 

口 特征 值 缺 失 的 概率 和 隐藏 的 缺失 值 无 关 ， 但 可 能 和 其 他 观测 到 的 值 有 关 。 

口 示例 : 假设 有 个 全 自动 的 车 流 监 控 系 统 ， 可 以 记录 车 牌号 和 时 间 等 信息 。 但 天 黑 时 ， 
系统 就 无 法 读 取 车 牌号 。 在 这 种 情况 下 ， 和 车 牌号 的 记录 是 否 有 值 和 车 牌号 的 实际 值 之 
间 无 关 ， 但 它 可 能 和 (可 以 观测 到 的 ) 当时 的 记录 时 间 这 一 特征 有 关 。 

完全 随机 缺失 (missing completely at random, MCAR ) 

口 特征 值 缺 失 的 概率 和 隐藏 的 缺失 值 以 及 其 他 观测 到 的 值 都 无 关 。 

口 示例 : 宇宙 射线 有 时 会 影响 设备 的 正常 运行 ， 并 导致 数据 集中 值 的 缺失 。 值 缺失 的 概 
率 既 不 受 该 特征 已 保存 的 值 的 影响 ， 也 不 受 数据 集中 其 他 特征 值 的 影响 。 

非 随机 缺失 (missing not at random, MNAR) 

口 特征 值 缺失 的 概率 取决 于 隐藏 的 缺失 值 ， 以 及 其 他 观测 到 的 值 。 

口 示例 : 个 人 气象 站 会 跟踪 各 种 统计 数据 ， 包 括 气压 、 降 十 和 太阳 辐射 。 然 而 ， 下 雪 时 ， 
太阳 辐射 测量 仪 就 测 不 到 任何 值 了 。 


如 有 条 训练 集中 有 数据 缺失 ， 那 么 必须 补 上 这 些 缺 失 的 值 ， 以 确 你 能 够 将 数据 转换 为 拥有 
固定 形状 的 张 量 。 也 就 是 说 ， 张 量 中 的 每 个 “格子 ”和 神 得 有 值 。 处 理 缺 失 数据 的 技巧 主要 有 
4 种 。 

如 有 果 训 练 数 据 很 多 , 缺失 值 很 少 , 那么 最 简单 的 技巧 就 是 百 接 舍 并 有 数据 缺失 的 样本 〈 见 代 
人 码 浓 单 6-21 )。 但 需要 注意 的 是 ， 这 可 能 会 导致 训练 集 模 型 产生 一 定 俩 差 。 举 个 催 单 的 例子 ， 假 
设 在 一 个 场景 中 ， 正 类 别 数据 的 缺失 值 比 负 类 别 数据 的 缺失 值 要 多 得 多 。 那么 , 柑 型 通过 训练 习 
得 的 两 种 类 别 的 概 座 就 是 错误 的 。 只 有 在 缺失 数据 是 完全 随机 缺失 (MCAR ) 的 情况 下 ， 才 可 以 
全 无 后 顾 之 忧 地 舍弃 数据 。 


代码 清单 6-21 通过 舍弃 样本 处 理 缺 失 的 特征 值 


const filteredDataset = 仅 保 留 featureName 这 一 特征 的 值 为 














tf.data.csv (csvFilename) 真 值 〈 即 不 为 0、null、undefined、 
.filter(e => el['featureName']); NaN 或 空 字 符 串 ) 的 元 素 


尺 一 种 处 理 数据 缺失 的 技 马 是 用 肝 些 值 填充 那些 缺失 的 值 ( 见 代码 清单 6-22 )。 这 种 方法 又 
叫 作 插值 (imputation )。 币 用 的 搬 值 方法 会 将 缺失 值 蔡 换 为 特征 的 均值 、 中 位 数 或 众 数 。 缺 失 的 
类 别 特 征 值 可 以 用 该 特征 最 第 见 的 类 别 ( 即 众 数 ) 填充 。 除 此 之 外 ， 还 有 一 些 更 局 级 的 技巧 ,这 
些 技巧 利用 现 有 的 特征 构建 缺失 特征 的 预测 种 。 事 实 上 ,神经 网 络 正 是 缺失 数据 插值 的 “高 级 技 
马 ” 之 一 。 搬 值 的 缺点 是 模型 感知 不 到 原始 数据 中 特征 值 的 缺失 。 如 打数 据 的 缺失 含有 关于 目标 
变量 的 信息 ,那么 这 些 信 息 就 会 在 插值 的 过 程 中 遗失 。 
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代码 清单 6-22 通过 插值 处 理 缺 失 的 特征 值 


计算 插值 的 函数 。 注 意 计算 均 
值 时 应 该 只 包括 有 值 的 元 素 





async function calculateMeanOfNonMissingl 
dataset, featureName) { 


let samplesSoFar = 0; 此 处 undefined 和 null 都 会 被 视 作 

let sumSoFar = 0; 缺失 值 。 有 的 数据 集会 用 -1 或 0 标注 

await dataset.forEachAsync (row => { 缺失 值 。 一 定 要 根据 实际 情况 决定 此 
const x = rowlfeatureNamel]; 处 用 什么 





if (x != null) { 
samplesSoFar += 1; 
sumSoFar += xX; 


} 
Fy | 注意 ， 如 果 所 有 的 数据 都 缺失 的 话 ， 
此 处 会 返回 NaN 


return sumSoFar / samplesSoFar; 


】 


function replaceMlssIngWILtnhImDuUted ( pe 
row, featureName, imputedValue)) { 如 采 记录 家 失 ee 的 
值 ， 则 该 函数 会 有 条 件 地 更 新 该 记录 





const x = rowlfeatureName]; 
if (x == null) { 缺失 值 
return {...row, [featureName|]: imputedValue}; 
} else { 
return row; 
} 用 tf.data.Dataset 的 map() 
} 方法 ， 将 数据 集中 的 每 个 元 素 映 
射 成 插值 后 的 元 素 


const rawDataset tf.data.csv(csvFilename),; 
const imputedValue = awalt calculateMeanOfNonMissingl( 
rawDataset, 'myFeature').,; 
const imputedDataset = TawDataset .map ( 
row => replaceMissingWithIimputed!\( 
row, 'myFeature', imputedValue)); 


有 时 会 用 一 个 标记 值 ( sentinel value ) 来 荐 代 缺 失 值 。 例 如 , 可 以 用 -1 来 表示 缺失 的 体重 值 ， 
意味 春 没 有 采集 过 体重 。 如 果 你 手头 的 数据 集 正 是 如 此 , 注意 在 将 它 作 为 离 群 值 处 理 之 前 (在 体 
重 数据 集 的 示例 中 就 是 将 -1 替换 为 40kg 之 前 )， 先 将 缺失 值 转换 为 标记 值 。 

可 想 而 知 ， 如 采 特 征 值 的 缺失 和 预测 的 目标 之 前 有 茶 种 关联 ,那么 檬 型 就 可 以 利用 标记 值 学 
习 这 种 关联 。 在 实践 中 , 模型 会 投入 一 部 分 算 力 来 学 习 区 分 特征 何 时 作为 值 使 用 ,以 及 何 时 作为 
标记 值 使 用 。 

最 稳健 的 缺失 数据 处 理 方法 可 能 是 上 述 两 种 技巧 的 结合 。 也 就 是 说 ， 用 插值 赴 充 缺失 值 ， 同 
时 还 增加 新 特征 来 表示 该 特征 之 前 是 否 缺 失 ( 见 代 码 清 单 6-23 )。 在 这 种 情况 下 ， 我 们 可 以 将 缺 
失 的 体重 值 蔡 换 成 某 种 插值 ， 然 后 添加 一 个 新 特征 weight_missing。 如 果 体 重 值 原本 存在 则 
为 0, 否则 为 1。 这样 在 数据 的 缺失 和 预测 的 目标 有 关 时 ,模型 就 可 以 利用 这 些 缺 失信 息 。 同 时 ， 
这 也 可 以 避免 将 实际 体重 值 和 插值 混 消 。 
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代码 清单 6-23 ”次 加 一 个 表示 数据 缺失 的 新 特征 


function addMissingness (row, featureName)) { 





const x = row[featureName]; 该 函数 会 为 每 行 添加 一 个 新 
onst TeMissing = {x == 111 ?1>V 特征 。 如 果 原 特征 的 值 缺失 ， 
return {...row, [featureName + '_isMissing']: isMissing}; 则 新 特征 值 为 1， 否则 为 0 
} 
const rawDataset tf.data.csv (csvFilename); 用 tf.data.Dataset 的 map() 
Const datasetWithIindicator = rawDataset.mapl( 方法 ， 将 数据 集中 的 每 个 元 素 映 
(row) => addMissingness (row, featureName); 射 成 添加 新 特征 后 的 元 素 


3. 数据 仿 斜 

在 本 草 伊 始 , 我 们 讨论 过 含 斜 的 概念 , 它 指 两 个 数据 集 在 分 布 上 的 区 别 。 这 是 机 融和 学习 从 业 
者 将 训练 好 的 模型 部 署 到 生产 环境 时 会 遇 到 的 一 个 重大 挑战 。 检 测 数据 集 之 间 是 否 存 在 侦 笠 ， 需 
要 为 其 分 布 建 模 , 然后 比较 其 匹配 度 。 一 种 简单 快速 的 获取 数据 集 的 相关 统计 信息 的 方法 是 使 用 
像 Facets 这 样 的 工具 ， 如 图 6-5 中 的 截图 所 示 。Facets 会 分 析 并 总 结 数 据 集 的 统计 信息 ， 并 提供 
每 个 特征 分 布 的 相关 数据 。 它 可 以 助 你 快速 查 明 不 同 数据 集 在 分 布 上 的 偏 冬 。 


train 下 test 














| 
Numeric Features (6) Chart to show 
Standard v 
count missing mean stddev zeros min median max Olog 口 sxpand 口 bercen neu 
| Age 
32.6Kk 0% 38.58 13.64 0% 17 37 90 
i 16.3k 0% 38.77 13.85 0% 17 37 90 从 Ee 
20 40 60 80 
Capital Gain 30K 
32.6k 0% 1,077.65 7,385.29 91.67% 0 0 100k 
上 16.3Kk 0% 1,081.91 7,583.94 91.87% 0 0 100k SK 贺 
10K 40K 70K 
Capital Loss 30K 
32.6k 0% 87.3 402.96 95.33% 0 0 4,356 
| 16.3k 0% 87.9 403.11 95.31% 0 0 < 本 


Education-Num 





| 32.6k 0% 10.08 2.57 0% 1 10 16 
1 16.3k 0% 10.07 2.57 0% 1 10 1 -i 
2 6 10 14 
| fnlwgt 
32.6k 0% 190k 106k 0% 12.3k 178k 1.48M 
四 16.3k 0% 189k 106k 0% 13.5k 178k 1.49M < 国 且 一 
200K 600K 1M 1M 
Hours per week 
32.6k 0% 40.44 12.35 0% 1 40 99 
4K 
i 16.3k 0% 40.39 12.48 0% 1 40 99 一 一 上 一 = 


图 6-5 用 Facets 展示 训练 集 和 测试 集中 每 个 特征 样本 值 分 布 情况 的 示例 。 示 例 使 用 的 
数据 集 来 自 加 州 大 学 欧文 分 校 的 人 口 普查 收入 数据 集 。Facets 主页 的 示例 会 默 
认 加 载 这 个 数据 集 。 当 然 ， 你 也 可 以 在 该 网 站 上 传 目 己 的 CSV 文件 进行 比较 。 
图 中 展示 的 界面 是 Facets 的 概览 界面 


简单 的 初级 侦 斜 检测 算法 可 以 计算 每 个 特征 的 均值 、 中 位 数 和 方差 , 然后 判断 数据 集 之 间 的 
区 别 是 否 在 可 接受 的 范围 内 。 更 高 级 的 检测 算法 可 以 利用 给 定 的 样本 答 试 预测 样本 来 日 哪个 数据 
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集 。 理想 情况 下 ,如 末 两 个 数据 集 的 样本 来 日 同一 个 分 布 , 那么 是 无 法 做 出 这 样 的 预测 的 。 反 之 ， 
如 末 可 以 判断 样本 来 日 哪 个 数据 集 ， 那 就 说 明 数 据 集 间 可 能 存在 偏 冬 。 


4. 不 同 格式 的 字符 串 

用 字符 串 作 为 分 类 特征 的 值 是 一 种 非常 常见 的 做 法 。 例 如 ， 当 用 户 访 问 网 站 时 ， 可 以 用 
FIREFOX、SAFARI 和 CHROME 这 些 字 符 串 记录 使 用 的 浏览 右 。 通 浓 ， 将 这 些 数 据 传 入 深度 学 习 
模型 前 ， 会 将 它们 先 转 换 为 整数 (通过 记录 字符 串 和 数字 映射 关系 的 单词 表 或 散 列 计算 )， 随 后 
将 它们 映射 到 维 的 向 量 空间 (参见 9.2.3 节 的 词 戏 和 人 部 分 ), 该 过 程 中 的 一 个 常见 问题 是 , 不 同 
的 数据 集 对 字符 串 有 不 同 的 表示 格式 。 例 如 ， 训 练 集 使 用 的 格式 可 能 是 FIREFOX， 而 在 推断 阶 
段 , 传人 模型 的 可 能 是 FIREFOX\n ( 多 了 换行 符 ) 或 "FIREFOX" (多 了 引号 )。 这 种 数据 偏 斜 非 
常 棘 手 ， 因 此 需要 谨慎 处 理 。 


5. 其 他 关于 数据 的 注意 事项 

除了 上 一 节 中 提 到 的 问题 以 外 ， 下 面 列 出 了 将 数据 输入 机 融 学 习 系 统 前 需要 注意 的 一 些 事项 。 

口 过 于 不 平衡 的 数据 一 一 如 果 数 据 集 中 几乎 所 有 样本 的 某 些 特征 值 都 是 一 样 的 ， 那 么 可 以 
考虑 去 抒 这 些 特征 。 这 是 因为 它们 非常 容易 导致 过 拟 合 ， 并 且 闪 度 学 习 模 型 并 不 擅长 处 
理 非常 稀 玖 的 数据 。 

口 数值 与 分 类 特征 在 表示 上 的 区 别 一 一 有 些 数据 集会 使 用 整数 表示 类 别 的 枚 举 集合 中 的 元 
系 。 如 条 这 些 数值 的 大 小 本 刁 并 无 意义 ， 但 输入 模型 时 没有 进一步 处 理 ， 就 会 导致 一 些 问 
题 。 例 如 ， 假 设 有 个 由 RocK、cLASSICAL 等 字符 串 组 成 的 枚 举 集合 。 如 果 根 据 某 个 单词 
表 将 这 些 值 映射 成 整数 ， 那 么 在 将 它们 传 入 模型 前 ， 必 须 使 用 恰当 的 表示 将 其 表示 为 枚 举 
数据 。 也 就 是 说 ， 对 数字 进行 one-hot 编码 或 者 舱 入 ( 参见 第 9 音 )。 否 则 ， 模 型 会 将 这 些 
数字 视 为 浮 点 数 ， 错 以 为 这 些 数 字 编 码 的 数值 大 小 暗含 某 种 规律 ， 并 学 习 这 些 规律 。 

口 特征 在 尺度 上 的 区 别 一 一 虽然 之 前 提 过 ,但 本 市 仍 要 提起 ， 毕 苋 本 普 的 主题 就 是 导 任 数 
据 出 错 的 因素 。 要 特别 注意 尺度 上 有 巨大 区 别 的 数值 特征 ， 因 其 可 能 会 导致 训练 的 不 稳 
定 。 一 般 而 言 ,在 训练 前 , 最 好 先 对 数据 进行 z 分 数 标准 化 ( 标准 化 数据 的 均值 和 标准 差 )。 
当然 ， 在 推 新 时 ， 也 应 该 使 用 和 训练 时 相同 的 预 处 理 方法 。 可 以 在 第 3 章 的 鞠 尾 花 分 类 
示例 中 找到 这 一 方法 的 示例 ( 位 于 tensorflow/tfjs-examples 代码 仓库 )。 

口 数据 的 偏见 、 安 全 和 隐私 问题 一 一 显然 ， 仪 赁 本 书 的 这 一 章 ， 无 法 面面俱到 地 涵盖 如 何 
负责 任 地 进行 机 善 学习 系统 的 开发 。 了 解 如 何 管理 数据 相关 的 俩 见 、 安 全 和 隐私 问题 对 
于 开发 机 带 学 习 解决 方案 是 至 关 重 要 的 。 因 此 ， 你 应 该 花 点 时 间 了 解 这 方面 的 基础 知识 。 
谷歌 人 工 智能 网 站 的 “Responsible AI Practices” 是 了 解 这 方面 信息 的 一 个 不 错 的 起 点 。 
无 论 是 在 道德 层面 还 是 在 专业 层面 ， 都 应 该 床 循 这 些 实践 准则 ， 因 为 道德 和 专业 都 是 值 
得 追求 的 目标 。 另 外 ， 即 使 纯粹 是 从 自身 利益 出 发 ， 注 意 这 类 问题 也 是 明智 的 选择 。 这 
是 因为 数据 在 上 述 任何 一 方面 有 所 丝 漏 ， 都 会 导致 塌 众 的 系统 性 错误 ， 从 而 进一步 导致 
客户 的 流失 一 一 他 们 会 去 寻找 更 可 靠 的 解决 方案 。 

一 般 而 言 ， 你 应 该 花 时 间 确 保 数据 和 你 预期 的 是 一 致 的 。 这 方面 有 很 多 有 用 的 工具 ， 包 括 
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Observable 、Jupyter 、Kaggle Kernel 和 Colab 这 样 的 互动 笔记 型 工具 ， 以 及 像 Facets 这 样 的 有 可 
视 化 界面 的 工具 。 图 6-6 中 展示 了 Facets 提供 的 男 一 种 探索 数据 的 方式 。 此 处 使 用 的 是 Facets 的 
绘图 功能 ， 叫 作 Facets Dive。 可 以 用 它 来 可 视 化 纽约 州立 大 学 ( State Universities of New York, 
SUNY ) 数据 集中 的 数据 。 用 户 可 以 在 Facets Dive 界面 中 选择 数据 集中 的 列 ， 并 自 定义 每 列 在 界 
面 中 可 视 化 的 方式 。 此 处 通过 下 拉 亲 单 将 Longitudel (经度 ) 设 为 样本 的 x 坐标 ，Latitudel ( 纬 
度 ) 设 为 样本 的 y 坐标 ，City( 城市 名 ) 设 为 样本 的 名 字 ，Undergraduate Enrollment ( 本科 生效 
量 ) 设 为 样本 的 颜色 。 正 如 预期 的 一 样 ， 通 过 将 经 纬度 作为 两 个 坐标 轴 在 二 维 平 面 上 作 图 ， 获 得 
了 一 个 纽约 州立 大 学 校区 的 地 图 。 可 以 通过 纽约 州立 大 学 网 站 确认 这 个 地 图 的 正确 性 。 
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图 6-6 ”Facets 的 另 一 张 截图 。 这 次 展示 的 是 纽约 州 各 个 大 学 校区 的 相关 数据 。 该 数据 来 
自从 CSV 文件 该 取 数 据 的 示例 (位 于 tfjs-examples/data-csv )。 如 图 所 示 ，Facets 
Dive 界面 提供 了 探索 数据 集 不 同 特征 间 关 系 的 功能 。 图 中 的 每 个 点 都 对 应 数据 集 
中 的 一 个 样本 。 此 处 将 样本 的 x 坐标 设置 为 Latitudel 特征 ，y 坐标 设置 为 
Longitudel 特征 。 颜 色 则 代表 Undergraduate Enrollment 特征 。 显 示 的 文字 是 City 
特征 ， 表 示 各 个 大 学 校区 所 在 的 城市 。 从 图 中 可 以 看 出 纽约 州 城市 的 大 致 分 布 : 
布 法 罗 市 在 西部 ， 纽 约 市 在 东南 部 。 显 然 ， 本 科 生 最 多 的 校区 坐落 于 赛 尔 登 市 
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至 此 , 我 们 已 经 知道 如 何 获 取 所 需 的 数据 , 并 将 它 封装 在 tf .data .Dataset 对 象 中 以 便 后 
续 操 作 。 同 时 ,我 们 还 学 习 了 如 何 观 察 数据 ， 以 及 如 何人 处 理 其 中 潜在 的 问题 。 为 了 确保 模型 的 成 
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功 创建 ， 还 有 什么 可 以 进一步 提升 的 吗 ? 

有 时 ,， 仅 乱 手 头 的 数据 是 不 够 的 ,还 需要 通过 程序 扩展 原 数据 。 这 是 通过 对 现 有 数据 进行 小 
幅 修改 来 创建 新 样 例 做 到 的 。 第 4 章 的 MNIST 手写 数字 分 类 问题 就 是 一 个 例子 。MNIST 数据 集 
包含 10 个 手写 数字 的 共 60 000 个 训练 图 像 ( 即 每 个 数字 6000 个 图 像 )。 数字 分 类 天 是 否 有 足够 
的 数据 学 习 所 有 的 手写 数字 类 型 ? 如 采用 户 输入 的 图 像 过 大 或 过 小 该 怎么 办 , 或 者 数字 的 随同 略 
有 不 同 该 怎么 办 ?如 末 数 字 的 形状 有 所 仿 冬 , 或 者 笔画 的 粗细 变 了 ,又 会 有 何 影 响 ? 经 过 这 些 变 
化 后 ， 模 型 还 能 否 识别 用 户 手 写 的 数字 ? 

如 东 从 MNIST 数据 集 获 取 一 个 图 像样 本 ,然后 将 图 像 中 的 数字 癌 左 平移 一 个 像 系 ， 那么 数 
字 的 语义 标签 仍 和 之 前 一 样 。 平 移 后 的 9 仍 是 9， 但 它 已 经 成 了 一 个 新 的 训练 样 例 。 像 这 样 通过 
用 程序 人 工 改变 原样 例 而 生成 的 样 例 一 般 叫 作伪 样 例 。 回 数据 集 深 加 伪 样 例 的 过 程 叫 作 数据 增强 
(data augmentation )。 

数据 增强 的 策略 是 根据 现 有 的 训练 样本 生成 更 多 的 训练 数据 。 对 于 图 像 数据 而 言 ， 可 以 通过 
各 种 形变 , 例如 旋转 、 剪 裁 和 缩放 改变 原 图 ， 生 成 可 信 的 新 图 像 。 这 么 做 的 目的 是 增加 训练 数据 的 
多 样 性 , 从 而 增强 训练 出 的 模型 的 泛 化 能 力 (换言之 , 绥 解 过 拟 合 )。 这 在 训练 集 很 小 时 尤其 有 用 。 

图 6-7 展示 了 如 何 对 猫 的 图 像 进行 数据 增强 。 猫 的 图 像 源 自 一 个 有 标签 的 图 像 数 据 集 。 示 例 
通过 旋转 和 偏 斜 原 图 像 获得 了 一 系列 新 图 像 。 这 些 图 像 的 标签 “ 猫 ” 并 没有 变 ， 其 内 容 却 有 很 大 
的 变化 。 
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图 6-7 ”随机 进行 数据 增强 生成 的 猫 的 图 像 。 通 过 随机 选择 旗 转 、 反 射 、 平 移 
和 偏 斜 程度 ， 单 个 有 标签 样 例 可 以 生成 一 系列 新 的 训练 样 例 
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如 条 你 用 这 种 数据 增强 方法 训练 一 个 新 模型 ,模型 的 每 个 样 例 都 会 有 所 不 同 。 但 是 这 些 样 例 
很 大 程度 上 是 互相 关联 的 ， 因 为 它们 都 来 日 少数 几 个 原始 图 像 。 数 据 增强 无 法 庆生 任何 新 信息 ， 
只 能 重新 混合 现 有 的 信息 。 因 此 ， 它 很 难 完全 避免 过 拟 合 。 使 用 数据 增强 的 另 一 个 风险 是 增强 后 
的 训练 集 有 可 能 和 测试 集 的 分 布 不 匹配 , 也 就 是 俩 和 糙 。 可 用 于 训练 的 额外 的 伪 样 例 市 来 的 好 处 和 
由 此 产生 的 俩 斜 , 二 者 完 竟 如 何 权衡 ， 取 决 于 具体 的 应 用 场景 。 它 的 实际 作用 只 能 通过 测试 和 不 
靳 实验 来 验证 。 

代码 清单 6-24 提供 了 一 个 如 何 将 数据 增强 算法 作为 函数 传人 dataset .map () 的 示例 ,程序 
会 根据 该 函数 中 定义 的 转换 方式 对 数据 集 进行 修改 。 注意 ,增强 算法 会 应 用 于 每 个 样 例 。 需要 注 
意 的 为 一 点 是 ,不 应 该 将 它 用 于 验证 集 或 测试 集 。 如 琳 对 测试 集 也 进行 增强 ,那么 对 模型 的 评估 
是 有 偏差 的 ， 因 为 推断 阶段 的 输入 的 数据 是 没有 增强 的 。 


代码 清单 6-24 ”用 数据 增强 后 的 数据 集训 练 模型 


























数据 增强 函数 的 参数 是 格式 为 {image，1label} 的 此 处 可 以 假设 randomRotate、randomSkew、 
样本 。 它 的 返回 值 是 一 个 新 的 、 格 式 相 同 的 样本 。 randomMirror 来 自 别 的 模块 . 每 次 旋转 、 偏 斜 
该 样本 是 基于 输入 样本 人 工 生 成 的 等 形变 的 程度 都 是 函数 调用 时 随机 决定 的 。 数据 


增强 应 该 仅 和 特征 有 关 ， 和 样本 的 标签 无 关 





function augmentFn(sample) { 
Const img = sample.image; 
const augmentedIimg = randomRotatel 
randomSkew (randomMirror (img)))); 
return {image: augmentedImg, label: sample.label}.; 


} 0 ， 
该 函数 会 返回 两 个 tf.data.Datasets 对 象 。 


四 其 中 元 < 孝 旺 了 fj 
const (trainingDataset, validationDataset} = 其 中 元 素 的 格式 都 是 {image，1label} 


getDatsetsFromSource().; 
augmentedDataset = trainingDataset 
.repeat() .map (augmentFn) .batch (BATCH SIZE); 


在 封装 成 批 次 前 ， 会 对 数 
集中 的 每 个 元 素 进 行 娄 
// 训练 模型 ea ei 


awalt model.fitDataset (augmentedDataset, { 
batchesPerEpoch: ui.getBatchesPerEpoch(), 
epochs:ui.getEpochsToTrain(), 
validationData: validationDataset .repeat () ， 





用 数据 增强 
后 的 效 据 集 
进行 训练 





validationBatches: 10, 特别 注意 ! 不 要 对 验证 集 使 用 数据 增强 。 此 处 
we 调用 valiqdationDataset 的 repeat() 方 
法 ， 是 为 了 循环 使 用 验证 集中 的 数据 ,默认 不 
会 自动 循环 。 根据 配置 , 每 次 验证 集 评估 只 会 


取 10 个 批 次 





希望 通过 这 一 章 的 介绍 , 你 已 经 认识 到 在 使 用 机 融 学 习 模 型 学 习 数据 前 理解 原始 数据 的 特性 
有 多 人 么 重要 。 本 章 介 绍 了 像 Facets 这 样 开 箱 即 用 的 工具 。 你 可 以 用 它 观 察 数据 集 并 加 次 对 数据 的 
理解 。 然 而 ， 如 采 你 需要 更 加 灵活 且 可 目 定 义 的 数据 可 视 化 方法 , 那么 就 有 必要 编写 一 些 可 视 化 
代码 了 。 下 一 革 中 将 介绍 ts-vis 模块 的 一 些 基 础 知识 。 该 模块 由 TensorFlow.js 的 作者 维护 ， 并 
日 是 专 为 这 样 的 使 用 场景 设计 的 。 
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6.6 ”练习 


(1) 扩展 第 5 章 的 目标 检测 示例 。 这 次 不 像 之 前 一 样 一 次 性 生成 整个 数据 集 ， 而 是 改 用 
tf.data .generator() 和 和 model.fitDataset()。 这 样 做 有 何 优 热 ? 如 果 给 模型 提供 大 得 多 
的 图 像 训练 集 ， 模 型 性 能 会 有 显著 提升 吗 ? 

(2) 对 MNIST 手写 数字 分 类 示例 进行 数据 增强 。 具 体 而 言 ， 和 尝试 平移 、 缩 放 和 旋转 原 数 据 集 
中 的 样 例 。 这 能 提升 模型 的 性 能 吗 ?” 是 应 该 用 数据 增强 后 的 数据 流 ， 还 是 应 该 只 用 “真正 的 ” 原 
始 样 例 进 行 验证 和 测试 ? 

(3) 尝试 用 6.4.1 市 介绍 的 技巧 绘制 前 几 半 中 用 过 的 数据 集 。 这 些 数 据 集 的 特征 是 否 相 互 独 
六 ?其 中 是 否 有 离 群 值 或 缺失 值 ? 

(4) 将 本 章 讨 论 的 CSV 数据 集 加 载 到 Facets 工具 中 。 数 据 集中 的 哪些 特征 看 起 来 有 可 能 会 导 
致 训练 问题 ?” 有 没有 什么 意料 之 外 的 发 现 ? 

(5) 回忆 一 下 前 儿 章 使 用 过 的 数据 集 。 可 以 用 哪些 方法 对 它们 进行 数据 增强 ? 























6.7 小结 
D 数据 是 推动 深度 学 习 革命 的 关键 力量 。 如 果 无 法 获取 大 量 、 规 整 的 数据 ， 大 多 数 深度 学 
习 应 用 就 无 法 实现 。 


口 TensorFlow.js 内 置 的 tf.daata API 可 以 轻松 地 流 式 读 取 大 型 数据 集 。 同 时 ， 它 还 可 以 用 
各 种 方式 转换 其 中 的 数据 ， 并 将 这 些 数据 和 模型 连接 起 来 ， 用 于 训练 和 预测 。 

口 有 好 几 种 创建 tf .data.Dataset 对 象 的 方法 : 用 JavaScript 数组 创建 、 用 CSYV 文件 创 
建 或 者 用 数据 生成 函数 创建 。 仅 用 一 行 JavaScript 代码 就 能 创建 一 个 能 够 从 远程 CSV 文 
件 流 式 读 取 数据 的 数据 集 对 和 象 。 

口 tf .data.Dataset 对 象 提 供 了 可 以 处 理 数 据 的 链 式 API。 它 使 开发 者 可 以 便捷 地 对 数据 
进行 乱 序 、 过 滤 、 批 次 封 深 、 上 映射， 以 及 其 他 机 格 学 习 应 用 常用 的 操作 。 

口 tf .data.Dataset 对 象 会 按 需 以 数据 流 的 方式 获取 数据 。 这 使 处 理 大 型 的 远程 数据 集 非 
毅 向 单 且 高 效 ， 但 缺点 是 数据 获取 的 操作 都 是 异步 的 。 

口 可 以 用 tf.Model 对 和 象 的 fitDataset (放大 十 习 业 下 tf.data Dataset 对 象 进行 训练 。 

口 数据 的 审计 和 清洗 是 个 费时 费力 的 过 程 。 但 是 ， 对 于 将 投入 实际 使 用 的 机 需 学 习 系 统 而 
言 ， 这 是 必要 的 步 又 。 如 采 在 数据 处 理 阶段 投入 精力 去 检测 和 处 理 数据 中 的 问题 ， 比 如 
偶 料 、 缺 失 值 和 离 群 值 ， 就 可 以 节省 模型 训练 阶段 的 调试 投入 。 

口 数据 增强 可 以 用 于 扩展 数据 集 。 扩 展 的 伪 样 例 是 通过 程序 生成 的 。 这 可 以 帮助 模型 学 习 
原样 例 已 知 的 各 种 变化 ， 因 为 原 数据 集 缺 乏 代 表 这 些 变 化 的 样 例 。 





























可 视 化 效 据 和 模型 





本 章 要 点 
口 如 何 用 多 S-vis 模块 进行 目 定 义 的 数据 可 视 化 。 
口 如 何在 模型 训练 完成 后 观察 模型 的 内 部 结构 并 获取 有 用 的 信息 。 














数据 可 视 化 对 机 融 学 习 从 业者 而 言 是 重要 的 技能 ， 因 为 它 在 整个 机 需 学 习 流 程 中 无 处 不 在 。 
构建 模型 前 ， 我 们 用 可 视 化 分 析 数 据 ; 模型 构建 和 训练 过 程 中 ,我 用 可 视 化 跟踪 训练 过 程 ; 模型 
训练 完成 后 ， 可 视 化 还 可 以 帮 我 们 理解 模型 的 工作 原理 。 

通过 第 6 章 的 学 习 , 你 已 经 知道 在 建立 机 名 学 习 模 型 前 可 视 化 并 理解 数据 的 好 处 。 我 们 已 经 
介绍 过 如 何 用 Facets 这 个 基于 浏览 喜 的 工具 ， 以 快速 、 可 互动 的 方式 观察 手头 的 数据 。 本 章 中 将 
介绍 一 个 名 为 声 s-vis 的 新 工具 。 你 可 以 用 它 编号 代码 ， 并 以 目 定 义 的 方式 可 视 化 数据 。 和 了 百 接 
观察 原始 数据 或 用 Facets 这 类 拆 箱 即 用 的 工具 相 比 , 使 用 它 有 些 额 外 的 好 人 处: 使 可 视 化 流程 更 灵 
活 多 变 ， 并 帮助 我 们 更 次 入 地 理解 数据 。 

除了 数据 可 视 化 以 外 ， 我 们 还 将 用 一 个 精彩 的 示例 展示 如 何 可 视 化 训练 后 的 深度 学 习 模 型 。 
我 们 可 以 通过 它 一 舌 神 经 网 络 这 个 “黑箱 ”内 部 的 究 苋 。 该 示例 会 展示 网 络 内 部 的 激活 函数 输出 ， 
并 计算 出 能 够 最 大 “激活 ”convnet 各 层 的 输入 模式 。 通 过 这 个 示例 ， 我 们 将 获得 可 视 化 在 次 度 
学 习 各 个 阶段 扮演 的 重要 角色 的 全 景 图 。 

通过 本 章 的 学 习 ,， 你 会 明白 为 何 说 可 视 化 是 任何 机 需 学 习 流 程 中 不 可 分 割 的 一 部 分 。 你 还 会 
熟悉 如 何在 TensorFlow.js 框架 中 用 标准 的 方式 可 视 化 数据 和 模型 ,以 及 如 何 运 用 它们 处理 手头 的 
机 天 学 习 问 题 。 


7.1 数据 可 视 化 


让 我 们 先 从 数据 可 视 化 开始 ,因为 这 是 机 带 和 学 习 从 业者 为 新 问题 制订 解决 方案 的 第 一 步 。 假 
设 此 处 要 解决 的 可 视 化 问题 超出 了 Facets 工具 的 能 力 范 围 ( 比如 , 假设 数据 远 不 止 一 个 小 的 CSV 
文件 )。 为 此 ， 我 们 会 先 介绍 一 个 简单 的 制图 API。 你 可 以 用 它 在 浏览 器 中 创建 简单 但 广泛 使 用 
的 各 类 图 ,包括 折线 图 、 散 点 图 、 柱 状 图 和 直方 图 。 在 用 便 编码 的 简单 数据 讲解 完 上 述 的 简单 示 
例 后 ， 我 们 会 将 所 有 这 些 技巧 结合 到 一 起 ， 可 视 化 一 个 有 趣 且 真实 的 数据 集 。 
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7.1.1 用 节 s-vis 模块 可 视 化 数据 


tfjs-vis 模块 是 一 个 和 TensorFlow.js 深度 集成 的 可 视 化 库 。 本 节 将 看 重 介 绍 它 诸多 功能 中 的 制 
图 功能 。 制 图 功能 是 通过 tfvis .render.* 命 名 空间 下 的 轻 量 级 制图 API 实现 的 。 你 可 以 用 这 
个 简单 易 懂 的 API 在 浏览 带 中 创建 机 各 学 习 中 最 常用 的 一 些 图 的 类 型 。 为 了 让 你 快速 上 手 
tfvis.render, 我 们 准备 了 一 个 CodePen 示例 ”。 我们 将 用 它 展示 如 何 用 tfvis .render 为 数 
据 创 建 各 种 基本 类 型 的 图 。 


tfis-vis 模块 的 基础 知识 
首先 ， 注 意 二 s-vis 模块 和 TensorFlow.js 的 主要 库 是 分 开 管 理 的 。 这 点 可 以 从 CodePen 的 
<script> 标 签 叶 入 坪 s-vis 模块 的 方式 看 出 来 。 


<script src="https://cdn.jsdelivr.net/npm/@tensorflow/tfjs-vis@latest"> 
</script> 


TensorFlow.js 的 主要 库 和 tfjs-vis 模块 的 导入 是 分 开 的 。 


<script src="https://cdn.jsdelivr.net/npm/@tensorflow/tfjs@latest"> 
</script> 








这 点 对 于 切 s-vis 和 TensorFlowjs 的 npm 包 (@tensorflow/tfjs-vis 和 @tensorflow/tfjs) 
也 同样 适用 。 无 论 是 基于 浏览 厚 还 是 基于 Node.js 的 JavaScript 应 用 程序 , 都 需要 单独 导入 这 两 个 
依赖 。 


e@ 折线 图 

折线 图 ( line chart ) 可 能 是 最 常见 的 图 之 一 。 它 是 一 种 表示 一 组 数值 和 男 一 组 有 序数 值 关系 
的 曲线 。 折 线 图 的 坐标 系 由 x 轴 (x 轴 ) 和 y 轴 (ypy 轴 ) 组 成 。 这 类 图 在 生活 中 随处 可 见 。 例 如 ， 
可 以 将 气温 在 一 天 之 内 的 变化 趋势 绘制 成 一 个 折线 图 ， 其 中 x 轴 是 时 间 ,y 轴 是 温度 计 的 读数 。 
折线 图 的 x 轴 不 一 定 是 时 间 。 比 如 ， 还 可 以 用 折线 图 表示 高 血压 药物 的 疗效 ( 降低 血压 的 程度 ) 
和 药物 剂量 ( 每 天 使 用 多 少 药 物 ) 的 关系 。 这 样 的 折线 图 通常 叫 作 剂量 -反应 曲线 ( dose-response 
curve )。 另 一 个 不 使 用 时 间作 为 x 轴 的 折线 图 示例 是 第 3 章 讨论 过 的 ROC 曲线 。 在 ROC 曲线 中 ， 
x 轴 和 了 轴 都 和 时 间 无 关 〈 它 们 分 别 是 二 分 类 需 的 假 正 例 率 和 真正 例 率 )。 

可 以 用 tfvis.render 的 1inechart () 水 数 创建 折线 图 。 如 CodePen 中 第 一 个 示例 (以 及 
代码 清单 7-1 ) 所 示 ， 该 邹 数 共有 3 个 参数 。 

(1) 第 一 个 参数 是 将 用 于 绘制 图 的 HTML 元 素 。 此 处 只 需要 输入 一 个 空 的 <div> 元 素 就 足 
各 。 了 。 

(2) 第 二 个 参数 是 图 中 样本 的 值 。 它 是 一 个 普通 的 JavaScript 对 象 (plain old JavaScript object， 
POJO )。 其 中 value 属性 对 应 一 个 数组 。 该 数组 由 一 些 x-y 数值 对 组 成 。 每 个 x-y 数值 对 都 是 一 
个 属性 为 x 和 yy 的 POJO。 当 然 ,x 值 和 yy 值 分 别 是 样本 的 x 坐标 和 yy 坐标 。 






































Q 请 在 图 灵 社 区 下 载 资源 ，http://ituring.cn/book/2813。 一 一 编者 注 








214 第 7 和 齐 可视化 数据 和 模型 


(3) 第 三 个 参数 是 可 选 的 。 它 包 含 折线 图 的 额外 配置 参数 。 在 下 面 的 示例 中 , 我 们 使 用 wiatn 
属性 配置 生成 的 图 的 宽度 (单位 是 像素 )。 你 会 在 后 续 的 示例 中 看 多 更 多 类 似 的 配置 字段 。” 


代码 清单 7-1 用 tfvis.render.1linechart() 绘 制 一 个 简单 的 折线 图 
let values = [{x: 1, y: 20}, {x: 2, y: 30}, 

{x: 3, y: 5}, {x: 4, y: 12}]; 

tfvis.render.linechart (document .getElementById('plot1'), 


ee 第 二 个 参数 是 一 个 对 象 。 
第 一 个 参数 是 将 用 于 绘制 图 的 和 其 中 的 values 属性 包含 


HTML 元 素 。 此 处 的 'plot1' 样本 数据 
是 一 个 空 div 元 素 的 ID 








第 三 个 参数 是 自 定 义 的 





数据 序列 是 各 X-y 数值 配置 信息 o 此 处 只 配置 
对 组 成 的 数组 了 图 的 宽度 


图 7-1 左 侧 展示 了 代码 清单 7-1 创建 的 折线 图 。 它 是 一 条 仅 有 4 个 数据 点 的 简单 折线 。 但 是 
linechart () 实 际 可 绘制 的 数据 点 数量 远 不 止 这 些 〈 比 如 ， 它 可 以 绘制 上 千 个 点 ) 当然 ， 如 末 
同时 绘制 的 数据 点 过 多 , 它 最 终 会 达到 可 利用 的 浏览 希 资 源 的 极限 。 这 种 资源 上 的 限制 依 浏览 才 
和 平台 而 定 ， 只 有 在 不 同 平台 上 试验 才能 真正 知道 。 一 般 而 言 ， 为 了 保证 UI 的 流畅 和 灵敏 ， 应 
该 限制 可 交互 的 可 视 化 应 用 程序 中 数据 点 的 数量 。 








30 Series 50 Series 
一 Series 1 — My series 1 
40 — My series 2 
20 2 
S 30 
,四 
$ 20 
12.000000 
10 >、 12.000000 
宇 10 
9 -5.000000 
1.0 1:5 2.0 2.5 3.0 3.5 4.0 1.0 :5 2.0 2.5 3.0 3:5 4.0 
X My x-axis label 


图 7-1 用 tfvis.render.linechart() 创 建 的 折线 图 。 左 : 用 单个 序列 绘制 的 单个 
折线 图 ( 由 代码 清单 7-1 绘制 ), 右 : 用 两 个 序列 在 同一 个 坐标 系 绘制 的 折线 图 
(由 代码 清单 7-2 绘制 ) 








有 时 需要 在 同一 张 图 中 绘制 两 条 曲线 来 展示 它们 之 间 的 关系 ( 比如 比较 它们 的 异同 )。 
tfvis.render.1linechart () 文 持 绘制 这 样 的 图 。 图 7-1 右 侧 展示 了 一 个 这 样 的 示例 ， 它 是 用 
代码 清单 7-2 中 的 代码 绘制 的 。 

这 种 折线 图 叫 作 多 序列 ( multiseries ) 图 ， 其 中 每 条 折线 叫 作 一 个 序列 ( series )。 为 了 创建 多 
序列 图 ， 必 须 给 1inechart () 的 第 一 个 参数 添加 一 个 series 属性 。 该 属性 的 值 是 字符 串 组 成 








GD TensorFlow 网 站 的 “TensorFlow.js Vis API” 页 面 有 坪 s-vis 的 API 的 完整 文档 。 你 可 以 在 里 面 找到 更 多 1inechart () 
函数 的 可 配置 属性 信息 。 
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的 数组 。 这 些 字 符 串 是 序列 的 名 字 ， 它 们 将 作为 图 例 显 示 在 生成 的 图 中 。 示例 代 码 的 两 个 序列 分 
别名 为 'My series 1' 和 'My series 2'。 

多 序列 图 第 一 个 参数 的 value 属性 也 需要 符合 一 定 的 格式 。 在 第 一 个 示例 中 ， 我 们 提供 了 
一 组 数据 点 。 但 对 于 多 序列 图 而 言 ， 则 需要 提供 一 个 由 数组 组 成 的 数组 。 这 个 般 套 数组 的 每 个 元 
素 表 示 各 个 序列 的 数据 点 。 它 的 格式 和 代码 清单 7-1 中 绘制 单 序列 图 时 使 用 的 格式 完全 一 样 。 
此 ， 骸 套数 组 的 长 度 必须 匹配 序列 数组 的 长 度 ， 否 则 会 使 程序 出 现 异常 。 

图 7-1 右 侧 展示 了 代码 清单 7-2 创建 的 图 。 如 果 你 能 看 到 彩 图 的话， 会 发 现 tfjs-vis 选择 了 
两 个 不 同 的 颜色 ( 蓝 色 和 橙色 ) 来 演 染 这 两 条 曲线 。 这 种 默认 配色 方案 通常 效果 还 不 错 ， 因 为 蓝 
色 和 覆 色 非常 容易 区 分 。 如 采 图 中 包含 更 多 的 序列 ， 那 么 坪 s-vis 也 会 目 动 选择 合适 的 颜色 。 

这 个 示例 图 中 的 两 个 序列 有 些 特殊 , 因为 它们 的 数据 点 的 x 坐标 值 完全 相同 ( 即 1、2、3、4 )。 
然而 , 一 般 而 言 ， 多 序列 图 中 不 同 序 列 中 数据 点 的 坐标 值 不 一 定 要 完全 相同 。 你 将 有 机 会 在 本 昔 
末尾 的 练习 (1) 中 验证 这 一 点 。 从 得 注意 的 是 ， 在 同一 张 图 中 绘制 两 条 曲线 不 一 定 适 合 所 有 情况 。 
例如 ,如果 两 条 曲线 十 分 不 同 ,并且 y 值 的 范围 并 不 重合 ,那么 在 同一 张 图 中 绘制 两 条 曲线 反倒 
使 人 更 难 察 觉 每 条 曲线 的 变化 。 这 种 情况 下 ， 还 不 如 将 其 分 别 绘 制 在 多 张 图 中 。 

代码 清单 7-2 中 值得 注意 的 为 一 点 是 坐标 轴 的 自 定 义 标签 。 此 处 通过 定义 配置 对 象 ( 传人 
linechart () 的 第 三 个 参数 ) 的 xLabel 和 yLabel 属性 , 为 x 轴 和 > 了 轴 上 自 定义 了 对 应 的 字符 串 
标签 。 一 般 而 言 ， 为 坐标 轴 设 置 标签 是 不 错 的 实践 ， 因 为 这 样 可 以 使 图 中 各 轴 的 意义 不 言 自明 。 
如 果 你 不 设置 各 轴 的 目 定 义 标签 ， 那 么 坪 s-vis 会 将 它们 默认 设置 为 x 和 y。 代 人 码 清单 7-1 和 图 
7-1 左 侧 就 属于 这 种 情况 。 


代码 清单 7-2 用 tfvis.render.1linechart() 创 建 一 个 双 序 列 折 线 图 
values = | 
| {Xe 1 YE 20 {XT Zr VE BO (Xs 3 Ye By {Xs dd, Ye 28}, 
{XS YE MO A 2 YE QF HX Sy YY SOry {Xe MH, YY = 
]; 













































































let series = ['My series 1', 'My series 2']; 
tfvis.render.linechart( 
document .getElementBylid('plot2'), {values, series}, { 
width: 400, 
xLabel: 'My x-axis label', 网 
yLabel: 'My y-axis label' | 绘制 多 个 序列 时 ， 
必须 提供 序列 名 
若 要 在 同一 个 坐标 系 中 展示 多 个 序列 ， 需 要 黎 与 加 认 的 X 铀 
将 value 设 为 由 多 个 数组 组 成 的 数组 。 其 中 和 > 轴 的 标签 
内 部 数组 的 元 素 为 x-y 坐标 组 成 的 数值 对 
。 散 点 图 
tfvis.render 能 创建 的 男 一 种 类 型 的 图 是 散 点 图 ( scatter plot )。 散 点 图 和 折线 图 最 显著 的 








区 别 是 , 散 点 图 不 会 用 线段 连接 数据 点 。 这 使 散 点 图 非常 适用 于 数据 点 的 排序 不 是 很 重要 的 场景 。 





Q@ 本 书 部 分 彩 图 请 到 图 灵 社 区 页 面 下 载 ( http://ituring.cn/book/2813 )。 一 一 编者 注 
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例如 ， 散 点 图 可 以 用 来 绘制 各 个 国家 /地 区 及 其 对 应 的 人 均 GDP 的 关系 。 这 些 图 要 诠释 的 主要 信 
息 是 x 值 和 yy 值 的 关系 ， 而 不 是 数据 点 之 间 的 排序 。 

tfvis.render 创建 散 点 图 的 困 数 是 scatterplot () 。 如 代码 清单 7-3 所 示 ， 和 linechart () 
一 样 , scatterplot () 也 可 以 绘制 多 个 序列 的 散 点 图 。 事 实 上 , scatterplot () 和 1Linechart () 
的 API 基 本 上 是 一 样 的 。 这 点 从 代码 清单 7-2 和 代码 清单 7-3 的 相似 性 上 就 可 见 一 斑 。 图 7-2 展 
示 了 代码 清单 7-3 创建 的 散 点 图 。 


代码 清单 7-3 用 tfvis.render.scatterplot 1() 创 建 散 点 图 


values = | 
[{x: 20, y: 40}, {x: 32, y: 0}, {x: 5, y: 52}, {x: 12, y: -6}], 
[xe "|S, Ye D335}, {Xi Ov:vVeE 9}, {XxX | 

] 3 














series = ['My scatter series 1', 'My scatter series 2']; 
tfvis.render.scatterplot ( 和 1inechart() 一 样 ， 若 要 在 同一 个 背 
document .getElementById('plot4'), 点 图 中 展示 多 个 序列 ， 需 要 将 value 设 
Me 为 多 个 数组 组 成 的 数组 。 其 中 内 部 的 数 
人 组 的 元 素 为 x-y 坐标 组 成 的 数值 对 
width: 400, 
xLabel: 'My x-values',， | 最 好 自 定义 坐标 
yLabel: 'My y-values,' 轴 的 标签 
jo 
出 Series 
50 O My scatter series 1 


OD My scatter series 2 


My y-values 
DD 
OO 





0 5 10 15 20 25 30 35 
My x-values 


图 7-2 ”包含 两 个 序列 的 散 点 图 ， 由 代码 清单 7-3 绘制 


e@ 柱状 图 

顾名思义 ， 柱 状 图 ( bar chart ) 使 用 一 些 柱 状 条 块 展示 数据 的 大 小 。 这 些 条 块 通常 从 坐标 
为 0 的 底部 开始 ， 这 样 从 条 块 的 高 度 就 可 以 清晰 地 看 出 数据 的 相对 大 小 。 因 此 ， 柱 状 图 非常 适 
用 于 表示 数据 间 的 大 小 关系 。 例 如 ， 柱 状 图 可 以 非常 卓然 地 展示 一 个 公司 在 过 去 几 年 的 收入 。 
在 这 个 场景 中 ， 观 察 者 可 以 通过 条 块 的 相对 高 度 和 比例 直观 地 看 出 每 个 季度 收入 的 变化 情况 。 
这 一 点 是 柱状 图 和 折线 图 、 散 点 图 的 一 个 显著 区 别 ， 因 为 后 面 的 两 种 图 不 一 定 “ 销 定 ” 在 坐标 
为 0 的 位 置 。 

可 以 用 tfvis.render 的 barchart () 图 数 创 建 柱 状 图 .代码 清单 7-4 展示 了 绘制 柱状 图 的 
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示例 代码 ,图 7-3 展示 了 绘制 出 的 柱状 图 .barchart() 的 API 和 1Linechart()、scatterplot () 
的 API 相似 。 然 而 ,它们 的 API 有 一 个 重要 区 别 , barchart () 的 第 一 个 参数 不 是 一 个 含有 value 
属性 的 对 象 ， 而 是 一 个 人 简单 的 、 由 索引 -数值 对 组 成 的 数组 。x 轴 的 值 不 是 用 x 属性 设置 ， 而 是 
用 ingex 属性 设置 。 与 此 类 似 ,y 轴 的 值 不 是 用 y 属性 设置 ， 而 是 用 value 属性 设置 。 为 什么 
会 有 这 样 的 区 别 呢 ? 这 是 因为 柱状 图 中 条 块 的 x 轴 值 不 一 定 是 数字 。 如 图 7-3 所 示 ， 它 们 还 可 以 
是 字符 串 或 数字 。 


代码 清单 7-4 用 tfvis.render.barchart() 创 建 柱状 图 
const data = | 
{ijndex: 'foo', value: 1}, {index: 'bar', value: 7}, 
{index: 3, value: 3}, 
{ijndex: 5, value: 6}]; 








tfvis.render.barchart (document .getElementBylid('plot5'), data, { 
yLabel: 'My value', 
width: 400 注意 柱状 图 的 索引 可 以 是 数字 或 


下 字符 串 ， 并 且 元 素 的 排序 很 重要 


My value 
OO 一 [证 Cn 上 Ol OO ~ 





ee 局 CD LO 
以 一 














图 7-3 妹 有 数字 也 有 数值 沦 引 的 柱状 图 ， 由 代码 清单 7-4 绘制 而 成 


e@ 直方 图 

于 文 介绍 的 3 种 类 型 的 图 可 以 绘制 出 不 同 数值 的 数据 。 有 了 时， 我 们 关注 的 是 数值 的 分 布 
( distribution )， 而 不 是 具体 的 大 小 。 假 设 有 一 个 经 济 学 家 正在 研究 国家 人 口 普 查 中 的 家 庭 年 收入 
数据 。 对 于 经 济 学 家 而 言 , 具体 的 收入 数值 不 是 最 值得 关注 的 信息 。 它们 包含 过 多 的 信息 (是 的 ， 
有 时 信息 太 多 不 一 定 是 好 事 )。 经 济 学 家 希望 看 到 的 是 对 收入 水 平 简 明 扼 要 的 概览 。 换 言 之 ， 他 
想 要 知道 数值 是 如 何 分 布 的 。 例 如 ,多 少 人 口 收 入 在 20 000 美元 以 内 , 多 少 人 口 收入 在 20 000 ~ 
40 000 美元 ， 多 少 人 口 收 入 在 40 000 ~ 60 000 美 元， 以 此 类 推 。 下 方 网 这 种 类 型 的 图 对 于 这 种 可 
视 化 任务 正好 合适 。 

直方 图 会 将 数据 划 入 不 同 的 区 间 (bin )。 每 个 区 间 表 示 一 个 连续 的 、 申 上 限 和 下 限定 义 的 取 
值 范 围 。 它 们 是 相 邻 的 ,并 能 覆盖 整个 取 值 空间 。 对 于 之 前 的 示例 而 言 ， 经 济 学 家 可 以 将 收入 划 
为 0~ 20 000 美元、20 000 ~ 40 000 美元 、40 000 ~ 60 000 美 元 等 区 间 。 设 定好 所 有 NN 个 区 间 后 ， 
就 可 以 编号 程序 统计 每 个 区 间 包 含 的 数据 点 的 数量 。 程 序 执行 后 会 得 到 N 个 数学 ( 对 应 NN 个 区 
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间 )。 然 后 就 可 以 将 这 些 数 值 表示 为 垂直 的 直 条 ， 从 而 得 到 想 要 的 直方 图 。 

tfvis.render.histogram() 会 自动 完成 这 些 步骤 ,这 样 就 侈 去 了 你 自己 计算 区 间 上 下 限 ， 
以 及 统计 每 个 区 间 中 样本 数 的 碎 烦 。histogram() 的 调用 方法 很 价 单 ， 如 代码 清单 7-5 所 示 ， 只 
需要 输入 一 个 无 序 的 数 信 数 组 即 可 。 


代码 清单 7-5 用 tfvis.render.histogram() 可 视 化 数值 的 分 布 


const data = [1, 5, 5, 5, 5, 10, -3, -3]; 


tfvis.render.histogram(document .getElementBylid('plot6'), data, { 
width: 400 
二 
使 用 自动 生成 的 区 间 绘 制 直方 图 


// 区 间 数 量 是 自 定义 的 直方 图 
// 注意 ， 此 处 使 用 的 数据 点 和 上 面相 同 








tfvis.render.histogram(document .getElementBylid('plot7'), data, { 
maxBins: 3, < 一 一 一 明确 配置 区 间 的 数量 


width: 400 
上 才学 
代码 清单 7-5 中 展示 了 两 种 略 有 区 别 的 histogram() 调 用 方法 。 第 一 个 调用 除了 配置 图 的 
宽度 外 ， 并 没有 设置 其 他 可 自 定 义 的 选项 。 在 这 种 情况 下 ，histogram() 会 使 用 内 置 的 计算 方 
法 决定 各 个 区 间 的 范围 。 最 后 会 得 到 7 个 区 间 : -4~-2,-2~0,.0~2,…,8~10。 图 7-4 左 侧 展示 
了 这 些 区 间 。 将 数据 划 入 这 7 个 区 间 后 ， 直 方 图 显示 4~ 6 区间 的 数据 最 多 。 该 区 间 包 含 4 个 数 
字 ， 因 为 数组 中 有 4 个 元 又 的 值 为 5。 直 方 图 有 3 个 区 间 (-2~0、2~4、6~8) 的 值 为 0， 因 为 
没有 任何 值 位 于 这 些 区 间 。 

因此 , 就 这 个 场景 而 言 , 可 以 说 默认 区 间 计 算 方 法 得 出 的 区 间 过 多 了 。 如 采 减 少 区 间 的 数量 ， 
目 然 就 不 会 有 这 么 多 区 间 中 的 值 为 空 了 。 可 以 用 配置 对 象 的 maxBins 属性 复写 默认 区 间 计 算 方 
法 ， 限 制 区 间 的 数量 。 这 正 是 代码 清单 7-5 中 第 二 个 histogram() 调 用 所 采用 的 方法 。 图 7-4 
展示 了 调用 的 结果 : 通过 将 区 间 的 数量 限制 为 3， 所 有 的 区 间 都 有 值 了。 


Num vals Min Max # Zeros # NaNs # Infinity Num vals Min Max # Zeros # NaNs # Infinity 




















8 -3 10 0 0 0 8 -3 10 0 0 0 





Number of records 
Number of records 





渤 昔 0 2 4 6 8 10 
Value (binned) Value (binned) 

图 7-4 使 用 相同 数据 绘制 的 两 张 耻 方 图 。 左 图 中 的 区 间 是 目 动 分 配 的， 右 图 中 的 区 间 
则 是 调用 时 明确 配置 的 。 绘 制 这 些 下 方 图 的 代码 位 于 代码 清单 7-5 中 
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e 热 图 

热 图 是 一 种 将 二 维 数 组 展示 为 由 彩色 单元 格 组 成 的 网 格 的 图 ,每 个 单元 格 的 颜色 表示 它 所 对 
应 的 数组 元 素 的 大 小 。 作 为 一 个 惯例 ， 一 般 会 用 蓝 色 和 绿色 这 样 “ 较 冷 ” 的 颜色 表示 较 小 的 但 ， 
用 栖 色 和 红色 这 样 “ 较 暖 ”的 颜色 表示 较 大 的 值 。 热 图 ”的 名 字 正 是 出 目 于 此 。 次 度 学 习 中 最 
各 见 的 热 图 可 能 要 数 混 请 矩阵 (参见 第 3 章 的 韵尾 伦 分 类 示例 ) 和 注意 力矩 阵 ( 参见 第 9 草 的 数 
据 转换 示例 )。 切 S-vis 的 tfvis.rendqer.heatmap () 部 数 专 用 于 绘制 这 类 图 。 

代码 清单 7-6 展示 了 如 何 用 热 图 可 视 化 一 个 假想 的 涉及 3 个 类 别 的 混 汪 矩阵。 上 述 函 数 第 
二 个 参数 的 ValuesS 属性 可 用 于 配置 混 消 和 矩阵 的 数值 。 xTickLabels 属性 和 yTickLabels 
属性 则 分 别 用 于 配置 热 图 x 轴 和 jy 轴 上 标记 的 类 别 的 名 字 。 不 要 混淆 这 些 标签 与 第 三 个 参数 的 
xLabel 和 yLabel 属性 中 配置 的 标签 。 后 者 是 对 整个 x 轴 和 yy 轴 的 标记 。 图 7-5 展示 了 绘制 
出 的 热 图 。 


代码 清单 7-6 用 tfvis.render.heatmap() 可 视 化 二 维 张 量 
































tfvis.render.heatmap (document .getElementBylId('plot8'), { 
values: [[1, 0, 0], [0, 0.3, 0.7], [0, 0.7, 0.3]], 
xTickLabels: ['Apple', 'Orange', 'Tangerine'], 传 入 heatmap() 的 
yTickLabels: ['Apple', 'Orange', 'Tangerine'l] 值 可 以 是 和 藤 套 的 
了 JavaScript 数组 
width: 500, xTickLabels 属性 用 于 | (如 这 里 所 示 ) 或 二 
height: 300, 标记 沿 x 轴 的 各 个 列 。 不 维 的 tf.Tensor 
xLabel: 'Actual Fruit", 要 把 它 和 xLabel 弄 混 了 。 张 量 对 象 
yLabel: 'Recognized Fruit', yTickLabels 属性 用 于 
colorMap: 'blues' 标记 沿 y 轴 的 各 个 行 
上 
和 xmTickLabel 与 yTickLabel 除了 此 处 使 用 的 blues 配色 
不 同 , xLabel 和 yLabel 是 对 整 外 ， 还 有 greyscale ( 灰 度 ) 
个 Xx 轴 和 yY 轴 的 标记 和 viridian (橄榄 绿 ) 可 选 
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图 7-5 由 代码 清单 7-6 绘制 出 的 热 图 ， 其 中 展示 了 一 个 假想 的 涉及 3 个 类 别 的 
混 请 矩阵 
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至 此 ， 对 tfvis.render 支持 的 5 种 主要 类 型 的 图 的 概览 就 结束 了 。 如 果 你 未 来 需要 用 
tfjs-vis 模块 可 视 化 数据 ,那么 很 可 能 会 经 稼 用 到 这 些 图 。 表 7-1 简要 总 结 了 上 文 介 绍 的 各 种 类 型 
的 图 。 你 可 以 用 它 为 给 定 的 可 视 化 任务 选择 合适 的 图 。 


表 7-1 苹 s-vis 模块 支持 的 (在 tfvis .render 命名 空间 下 的 ) 5 种 图 的 类 型 总 结 


图 的 类 型 二 js-vis 模块 中 对 应 的 函数 适用 的 可 视 化 任务 和 相关 的 机 器 学 习 示 例 
WR TVS en noe, 一 个 标量 (y 值 ) 随 着 男 一 个 标量 (x 值 ) 变化 的 场景 。 其 中 x 值 








之 间 有 内 在 的 顺序 关系 ( 如 时 间 、 剂 量 等 )。 同 一 个 坐标 系 可 以 容 
纳 多 个 序列 ， 例 如 训练 集 和 验证 集 对 应 的 性 能 指标 数据 (x 轴 为 训 
练 的 轮 次 ) 

散 点 图 tfvis.render.scatterplot() 一 个 标量 和 另 一 个 标量 可 以 组 成 xy 数值 对 的 场景 。 样 本 间 并 没有 
内 在 的 顺序 关系 。 例 如 可 以 表示 CSV 数据 集中 两 个 数值 列 之 间 的 

柱状 图 tfvis.render.barchart ( ) 有 少数 类 别 , 每 个 类 别 对 应 一 个 值 的 场景 。 例 如 可 以 表示 几 个 模型 
在 同一 个 分 类 问题 上 达到 的 准确 率 〈 百分比 ) 

直方 图 tfvis.render.histogram() 主要 关注 数值 集合 的 分 布 的 场景 。 例 如 可 以 表示 密集 层 的 核 的 参数 
值 分 布 

热 图 tfvis.render.heathmap\) 需要 将 二 维 数值 数组 可 视 化 为 二 维 网 格 的 场景 。 其 中 每 个 元 素 都 用 
颜色 编码 ， 表示 其 值 的 大 小 。 例 如, 它 可 以 表示 多 分 类 器 的 混 消 矩 
阵 ( 人 参见 3.3 节 ), 以 及 序列 到 序列 模型 的 注意 力矩 阵 ( 人 参见 9.3 市 ) 











7.1.2 ”综合 性 案例 研究 : 用 切 s-vis 模块 可 视 化 气象 数据 


上 一 节 中 的 CodePen 示例 使 用 的 是 小 规模 的 、 硬 编码 的 数据 。 本 节 将 展示 如 何 用 tfs-vis 绘 
制 更 大 规模 且 更 有 意思 的 真实 数据 集 的 图 。 这 将 显示 出 ts-vis 模块 的 真正 威力 ， 并 证 实在 浏览 
途中 进行 数据 可 视 化 的 价值 ,该 示例 还 将 点 出 在 实际 问题 上 使 用 这 个 制图 API 时 可 能 遇 到 的 一 些 
细微 差别 和 问题 。 

此 处 将 使 用 耶 拿 气象 档案 数据 集 , 它 的 数据 来 自 位 于 德国 耶 拿 市 的 气象 站 从 不 同 设备 采集 的 
气象 信息 。 整 个 数据 收集 过 程 长 达 8 年 之 久 (2009 一 2017 年 )。 该 数据 集 可 以 从 Kaggle 网 站 下 载 
(人 参见 “Weather archive Jena” 页 面 )， 是 一 个 42MB 的 CSV 文件 ， 其 中 共有 15 列 。 第 一 列 是 时 
间 戳 , 其 他 列 是 具体 气象 数据 , 例如 气温 (T aeg(c) )\ 气压 (p (mbar) )、 相 对 湿度 (rh (ss) 小 
风速 (wv (m/s) ) 等 。 如 果 仔 细 观 察 时 间 惟 ， 你 会 发 现 相 邻 的 时 间 戳 之 间 有 10 分 钟 的 间隔 ， 这 
说 明 采 样 的 周期 为 10 分 钟 。 奸 拿 气象 档案 数据 集 的 内 容 非 常 丰富， 因此 它 非 常 适 用 于 可 视 化 数 
据 、 探 索 数 据 和 试验 机 需 学 习 算 法 。 在 接 下 来 的 几 节 中 , 我 们 将 答 试 用 不 同 的 机 融 学 习 模 型 预测 
天 气 。 具 体 而 言 ， 我 们 将 用 前 10 天 的 天 气 预 测 其 后 一 天 的 天 气 。 然 而 ， 在 开始 这 个 激动 人 心 的 
天 气 预测 任务 之 前 ,我 们 还 是 应 该 遵循 “在 使 用 机 厂 学 习 模 型 前 ， 总 是 应 该 先 观察 数据 ”这 条 原 
则 。 也 就 是 说 ， 我 们 会 先 用 tfs-vis 模块 以 清晰 直观 的 方式 对 数据 进行 可 视 化 。 
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使 用 下 面 的 命令 下 载 并 运行 耶 拿 气象 预测 示例 ( 位 于 代码 仓库 二 s-examples 中 的 jena-weather 
文件 夹 )。 

git clone https://github.com/tensorflow/tfjs-examples.git 

cd tfjs-examples/jena-weather 


yarn 
yarn watch 


限制 数据 量 ， 高 效 且 有 效 地 可 视 化 数据 
耶 拿 气象 数据 集 相 当 大 ， 文 件 大 小 为 42MB， 比 至 今 在 这 本 书 见 过 的 CSV 文件 或 表格 型 数 
据 集 都 要 大 。 这 同时 意味 看 本 任务 将 面临 以 下 挑战 。 

口 第 一 个 是 对 计算 机 性 能 的 挑战 。 如 果 将 8 年 间 的 全 部 数据 一 口气 绘制 出 来 ， 浏 览 硕 标签 
页 必定 会 耗 尽 有 限 的 资源 , 变 得 反应 绥 慢 甚至 前 溃 。 即 使 将 绘制 的 数据 限制 到 第 1~14 列 ， 
仍 有 42 万 多 个 数据 点 要 展示 。 这 超出 了 tfjs-vis (或 任何 JavaScript 绘图 库 ) 一 次 可 正 常 
绘制 的 数据 量 上 限 。 

口 第 二 个 是 对 可 用 性 的 挑战 。 人 类 很 难 一 次 性 观察 大 量 的 数据 并 找 出 其 中 的 规律 。 具 体 而 
言 ， 很 难 想 象 有 人 能 通过 一 次 性 观察 42 万 多 个 数据 点 来 找 出 其 中 的 有 用 信息 。 就 和 计算 
机 一 样 ， 人 脑 的 信息 处 理 能 力也 是 有 限 的 。 作 为 可 视 化 设计 师 ， 应 该 用 高 效 的 方式 将 数 
据 中 最 相关 且 最 有 价值 的 部 分 展现 出 来 。 

我 将 使 用 以 下 3 个 小 技巧 来 应 对 这 些 挑 战 。 

口 与 其 一 次 性 地 将 8 年 的 数据 全 部 绘制 出 来 ,不 如 让 用 户 通 过 一 个 可 互动 的 UI 来 选择 数据 
显示 的 时 间 范 围 。 这 正 是 UI 中 时 间 跨 度 (“Time span”) 下 拉 菜 单 的 用 途 ( 见 图 7-6 和 图 
7-7 中 的 截图 ),。 时 间 跨 上 度 选 项 包括 “Day”“Week”“10 Days”“Month”“Year” 和 “Full”。 
最 后 一 个 选项 表示 展示 8 年 中 的 全 部 数据 。 除 了 最 后 一 个 选项 ， 选 好 时 间 范 围 后 ， 用 户 
可 以 通过 单 击 左 方 回 键 和 右 方 回 键 来 查看 不 同时 间 点 的 数据 。 

口 对 于 大 于 一 周 的 时 间 跨 度 ， 在 制图 前 ， 我 们 先 降 采 样 ( downsample ) 时 间 序 列 。 例 如 ， 
假设 用 户 选 中 的 时 间 跨 度 为 “Month”( 即 30 天 )。 那么 , 该 范围 内 的 原 数据 量 为 30 x 24 x 
6=4320 个 数据 点 。 如 代码 清单 7-7 所 示 ， 在 绘制 以 月 为 跨度 的 数据 时 ， 程 序 每 6 个 数据 
点 才 会 采集 一 个 数据 。 这 把 需要 绘制 的 数据 量 降 到 了 720 个 。 相 较 于 原 数据 量 ， 这 极 大 
地 减少 了 泻 染 的 开销 。 但 是 对 于 人 眼 而 言 ， 减 少 至 原来 1/6 的 数据 量 不 会 有 任何 影 啊 。 

口 和 时 间 跨 度 下 拉 有 末 单 类 似 ， 示 例 程 序 还 提供 了 用 于 选择 想 绘制 的 数据 列 的 下 拉 有 来 单 。 注 
意 ， 这 两 个 下 拉 沫 单 在 示例 程序 中 标记 分 别 为 “Data Series 1” 和 “Data Series 2”。 通 过 
这 些 下 拉 沫 单 ,用户 可 以 将 14 个 列 中 的 任意 一 列 或 两 列 数据 作为 折线 图 绘制 到 屏幕 上 ( 在 
同一 个 坐标 系 中 )。 

代码 清单 7-7 展示 了 绘制 如 图 7-6 所 示 的 岁 的 代码 。 尽 管 此 处 的 代码 也 像 之 前 的 示例 代码 一 

样 ,用 ELs Endaee GERSEET) 方法 绘制 折线 图 但 它 和 之 前 的 示例 相 比 要 更 为 抽象 。 这 
是 因为 在 网 页 中 ， 应 该 绘制 什么 数据 是 由 UI 中 下 拉 采 单 的 状态 决定 的 。 因 此 ， 我们 要 根据 UI 
状态 调整 绘制 用 的 数据 。 
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代码 清单 7-7 ”绘制 气象 数据 的 折线 图 (摘自 jena-weather/index.js ) 
jenaWeatherData 是 一 个 对 象 。 它 可 以 
帮 有 我 们 获取 和 管理 来 自 CSV 文件 的 数据 。 
参见 jena-weatherdata.js 文件 





function makeTimeSerieChart( 
seriesl, series2, timeSpan, normalize, chartContainer) { 


const values = [1]; 

const series = |[]; 

const jncludeTime = true; 

if (seriesl1 !== 'None') { 


EA 





凯 地 
洲 村 


木 串 


后 闷 





Values .Push (JenaWeathnhercrData.detColLumnData ( ( 
seriesl, includeTime, normalize, currBeginIindex, 样 因子 ) 

TIME SPAN_ RANGE MAP [timeSpan], 

TIME_SPAN_STRIDE MAP[timeSpan])); 


Ea 
































设置 可 视 化 series.push(normalize ? ‘S$S{seriesl} (normalized). : series]l); 
的 时 间 跨 度 | ，) 
if (series2 !== 'None') f{ 
values.push (jenaWeatherData.getColumnData ( 利用 tfjs-vis 支持 
series2, includeTime, normalize, currBeginIindex, 多 序列 图 的 特点 ， 添 
TIME_SPAN_ RANGE MAP [timeSpanl], 加 第 二 个 序列 
TIME SPAN_STRIDE MAP[timeSpan])); 
series.push(normalize ? ‘S$S{series2} (normalized). : series2); 


} 

tfvis.render.linechart ({values, series: series}, chartContainer, { 
width: chartContainer.offsetWidth * 0.95, 
height: chartContainer.offsetWidth * 0.3, 
xLabel: "Time’', < 一 一 一 一 一 最 好 自 定义 坐标 轴 的 标签 
yLabel: series.length === 1 ? series[0] : '' 

})3 

} 

还 可 以 继续 探索 本 示例 的 数据 可 视 化 UI， 通 过 它 可 以 发 现 气象 数据 中 纺 含 的 一 些 有 意思 的 
模式 。 例 如 ， 图 7-6 的 上 半 部 分 展示 了 标准 化 的 气温 (T (degc) ) 和 气压 (p (mbar) ) 在 10 
天 中 的 变化 趋势 。 不 难看 出 ,气温 曲线 有 一 个 每 天 重复 的 变化 模式 : 中 午 是 气温 的 最 高 峰 ， 午夜 
气温 则 会 降 至 谷底 。 除 了 这 个 每 天 重复 的 模式 外 ， 还 有 一 个 以 10 天 为 周期 的 全 局 趋势 ( 即 气温 
的 逐渐 上 升 )。 与 此 不 同 的 是 ,气压 曲线 并 没有 明显 的 变化 模型 。 图 7-6 的 下 半 部 分 展示 了 相同 
的 特征 在 一 年 的 跨度 中 的 变化 趋势 ,图 中 可 以 看 出 气温 在 一 年 中 的 变化 模式 , 即 于 8 月 达到 峰值 ， 
然后 在 1 月 降 至 谷底 。 和 图 7-6 的 上 半 部 分 一 样 ， 气压 在 这 个 时 间 踪 度 上 也 没有 展现 出 明显 的 变 
化 趋势 。 气压 一 年 的 变化 趋势 比较 随机 ,尽管 它 在 春季 和 和 夏季 相 较 其 他 季 世 要 更 为 稳定 。 通 过 在 
不 同 实际 的 时 间 跨 上 度 下 观察 相同 的 特征 , 可 以 发 现 数据 中 缠 含 的 各 种 有 趣 的 模式 。 单 徘 观 察 CSV 
文件 中 的 原始 数据 ， 几 乎 不 可 能 发 现 这 些 模 陈 。 
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Time span: [10days | 图 加 1/5/2009 - 1/15/2009 








Data series 1:  T(degc) | Data series 2: |p (mbar) M 
Normalize data YW Plot against each other 加 


series 


2 OO T (degC) (normalized} 
OO p (mbar) (normalized) 

1 

站 | 
































1,231 200.000.000 1 31 400.000.000 | 1 231600 000000 | 1 231 800.000.000 1.232,000.000.000 
Time 
Time span: [Year | 加 加 12/31/2008 - 12/31/2009 
Data series 1: |T (degC) "| Data series 2: jp (mbar) "| 
Normalize data ™ Plot against each other 
3 series 
2 OO T {degC) (normalized) 
OO p (mbar) (normalized} 
1 | A A 
| , | 人 由 | 如 人 内 | | IT 
| "hn hl | 站 
1 | | | | 
oN 
-3 
- 才 
1,230.000,000.000 1,238.000,000.000 1.245.000,000.000 1,254,000,000,000 1,252.000,000.000 
Time 





图 7-6 耶 拿 气象 档案 数据 集中 气温 (T (degc) ) 和 气压 (p (mbar) ) 的 折线 图 。 上 半 部 
分 和 下 半 部 分 分 别 使 用 了 不 同 的 时 间 跨 度 。 上 半 部 分 的 时 间 跨 度 为 10 天 。 注意 , 气 
温 曲 线 有 一 个 每 天 重复 的 变化 模式 。 下 半 部 分 的 时 间 跨 度 为 1 年 。 注 意气 温 曲 线 每 
年 的 变化 模式 。 虽 然 气压 没有 展现 出 明显 的 变化 趋势 ， 但 可 以 看 出 它 在 春季 和 夏季 
相 较 于 其 他 季节 要 更 为 稳定 


还 可 以 从 图 7-6 中 看 到 ， 展 示 的 气温 和 气压 值 是 标准 化 后 的 值 ， 而 不 是 绝对 值 。 这 是 因为 绘 
制图 前 勾 选 了 UI 中 的 “Normalize Data” 多 选 框 。 在 第 2 草 讨 论 波士顿 房价 预测 模型 时 ， 我 们 简 
要 地 提 过 标准 化 这 一 概念 。 第 2 草 标 准 化 的 方法 是 从 数据 中 减 去 均值 ， 然 后 将 它们 除 以 标准 差 。 
这 是 为 了 改进 模型 的 训练 。 此 处 使 用 的 标准 化 方法 和 之 前 完全 相同 。 然 而 , 它 并 不 仅 是 为 了 提升 
天 气 预测 模型 (下 一 节 中 将 讲解 模型 相关 的 内 容 ) 的 准确 率 ， 同 时 还 为 了 方便 可 视 化 。 为 何 这 对 
可 视 化 有 益 呢 ? 如 果 在 绘制 气温 和 和 气压 的 图 时 ， 试 着 取消 选择 “Normalize Data” 多 选 框 ， 你 就 
知道 为 何 有 必要 这 么 做 了 。 和 气温 数据 的 数值 范围 是 -10 ~ 40( 摄氏度 )， 而 气压 的 数值 范围 则 是 
980 ~ 1000。 如 果 不 经 过 标准 化 就 将 它们 放 在 同一 个 坐标 系 中 ， 那 么 两 种 相差 其 大 的 值 中 较 大 的 
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部 分 会 驱使 y 轴 坐标 值 扩展 到 一 个 非常 大 的 范围 。 结 果 ,两 个 曲线 看 上 去 都 会 是 遍 平 且 没 什么 变 
化 的 。 标 准 化 通过 将 所 有 样本 映射 到 一 个 均值 为 雪 、 标 准 差 为 1 的 分 布 上 避 侈 了 这 种 问题 。 

图 7-7 展示 了 将 两 个 天 气 特征 的 对 应 关系 绘制 成 散 点 图 的 示例 。 通 过 勾 选 “Plot Against Each 
Other” 选 项 就 可 以 进入 这 种 绘图 模式 。 同 时 还 需要 确保 两 个 “Data Series” 下 拉 亲 单 选中 的 选项 
都 不 为 空 ， 即 “None”。 绘制 这 些 散 点 图 的 代码 和 代码 清单 7-7 中 makeTimeSseriechart () 困 数 
的 代码 类 似 ， 故 而 不 再 袭 述 。 如 果 你 对 实现 细 市 感 兴趣 ， 可 以 参考 jena-weather/index.js 文件 。 

这 个 示例 散 点 图 展示 了 大 气 密度 (了 轴 ) 和 气温 (x 轴 ) 之 间 的 关系 。 两 种 数据 都 经 过 标准 
化 。 不 难 发 现 它们 之 间 有 一 种 非常 强 的 负 相 关 性 ， 即 气温 上 升 时 ， 大 气 密 度 就 会 下 降 。 该 示例 
图 采用 10 天 为 时 间 跨 度 。 但 使 用 别 的 时 间 跨 度 也 可 以 验证 这 一 点 。 这 种 变量 之 间 的 相关 性 用 散 
点 图 很 容易 可 视 化 ， 但 仅 徘 文本 格式 的 原始 数据 很 难 做 到 。 这 是 数据 可 视 化 独特 价值 的 又 一 个 
体现 。 


























DATA VISUALIZATION 
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Data series 1: |T(degc) "| Data series 2: |tho(g/m**3) "| 
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图 7-7 耶 拿 气 象 数 据 集 的 散 点 图 示例 。 该 图 展示 了 大 气 密度 (y 轴 的 rho ) 和 
气温 (x 轴 的 7 了 ) 之 间 的 关系 。 采 用 的 时 间 跨 度 为 10 天。 可 以 从 图 中 看 
出 两 种 数据 存在 负 相 关 性 
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7.2 可 视 化 训练 后 的 模型 


上 一 节 中 我 们 展示 了 数据 可 视 化 的 意义 。 本 厄 中 将 展示 如 何在 模型 训练 完成 后 , 可视化 模型 
各 个 方面 的 特征 ， 从 而 获得 有 价值 的 信息 。 出 于 这 个 目的 , 我 们 的 讨论 将 主要 集中 在 将 图 片 作为 
输入 的 convnet 上 ， 因 为 它们 的 应 用 非常 广泛 ， 并 能 提供 有 趣 的 可 视 化 结 

你 可 能 昕 过 深度 神经 网 络 是 “黑箱 ”这 种 说 法 。 但 不 要 被 这 种 说 法 误导 ， 以 为 训练 或 推断 时 
很 难 获取 神经 网 络 内 部 的 任何 信息 。 恰恰 相反 ,对 于 用 TensorFlowjs 编写 的 模型 而 言 ， 其 实 相当 
容易 观察 模型 内 部 各 层 的 变化 。” 

除 此 之 外 ， 对 于 convnet 而 言 ， 它 们 从 训练 中 习 得 的 内 部 表示 非常 适合 可 视 化 。 这 很 大 程度 
上 要 归功 于 它们 所 学 习 的 正 是 对 视觉 特征 的 表示 。 目 2013 年 以 来 ， 人 们 已 经 开发 出 了 一 系列 可 
视 化 和 理解 这 些 表示 的 技巧 。 当 然 , 要 讲解 所 有 的 技巧 是 不 现实 的 , 我 们 选择 其 中 最 基本 旦 有 用 
的 3 个 技巧 重点 介绍 。 

口 可 视 化 convnet 中 间 层 (激活 函数 ) 的 输出 。 这 非常 有 助 于 理解 连续 的 convnet 层 是 如 何 

转换 输入 的 。 同 时 ， 它 还 有 助 于 初步 了 解 单个 过 滤 硕 习 得 的 视 党 特征 。 
口 通过 找到 最 大 化 激活 函数 输出 的 输入 图 像 来 可 视 化 convnet 过 滤器 。 这 有 助 于 理解 过 滤 
希 对 哪些 视觉 特征 或 概念 敏感 。 

口 用 热 图 可 视 化 输入 图 像 各 部 分 激活 的 类 别 输出 。 这 有 助 于 理解 输入 图 像 中 哪些 部 分 对 
convnet 最 终 输 出 的 分 类 结果 影响 最 大 。 它 对 解 谈 convnet 得 到 输出 的 过 程 和 “调试 ” 错 
误 的 输出 也 非常 有 用 。 

这 些 技巧 的 示例 代码 位 于 区 S-examples 代码 仓库 的 visualize-convnet 文件 夹 。 可 以 用 以 下 命 
令 下 载 并 运行 示例 程序 。 

git clone https://github.com/tensorflow/tfjs-examples.git 


cd tfjs-examples/visualize-convnet 
yarn && yarn visualize 


此 处 使 用 的 varn visualize 命令 和 之 前 示例 中 使 用 的 yarn watch 命令 有 所 不 同 。 除 了 
构建 和 启动 Web 应 用 程序 外 ， 它 还 会 在 浏览 锅 外 执行 一 些 额 外 的 步骤 。 首 先 ， 它 会 安装 一 些 必 
备 的 Python 库 。 随 后 ， 它 还 会 下 载 VGG16 模 型 (一 个 著名 的 且 被 广泛 使 用 的 深度 convnet )， 并 
将 其 转换 为 与 TensorFlow.js 兼 容 的 格式 .VGG16 模型 是 用 大 型 的 ImageNet 数 据 集 预 训练 而 成 的 ， 
它 也 是 一 个 Keras 应 用 。 模 型 转换 完成 后 ，yarn visualize 还 会 在 tfjs-node 环境 中 对 转换 后 的 
模型 进行 一 系列 的 分 析 。 为 什么 要 在 Node.js 环境 中 而 不 是 浏览 右 环 境 中 进行 这 些 分 析 呢 ?这 是 
为 VGG16 是 一 个 较 大 的 convnet。” 因 此， 分 析 过 程 中 对 算 力 要 求 较 高 的 步 又 更 适合 在 资源 限 









































Q)“ 黑 箱 ” 的 真正 含义 是 ， 深 度 神经 网 络 内 部 发 生 的 大 量 数学 运算 虽然 很 容易 获取 ， 但 很 难以 第 人 能 理解 的 话语 描 
述 。 相 较 而 言 ， 描 述 决 策 树 和 逻辑 回归 要 容易 得 多 。 例 如 ， 对 于 决策 树 而 言 ， 可 以 逐个 过 历 每 个 分 校 点 ， 并 解释 
选择 每 个 分 文 的 原因 。 这 些 选择 都 可 以 用 人 简单 的 话语 描述 ， 例 如 “选择 该 分 文 是 因为 x 变量 大 于 0.35”。 这 个 问 
题 叫 作 模 型 可 解释 性 ( model interpretability )， 超 出 了 本 节 的 讨论 范围 。 

@) 要 想 理解 VGG16 模型 的 规模 有 多 大 ,可 以 看 看 它 的 权重 文件 的 大 小 。 它 的 权重 文件 共有 528MB 之 多 ,而 MobileNet 
模型 的 权重 文件 则 只 有 不 到 10MB。 








226 第 7 草 可 视 化 数据 和 模型 


制 更 小 的 Node.js 环境 中 执行 ， 这 样 可 以 极 大 地 加 快 执行 的 速度 。 如 果 采 用 {二 s-node-gpu， 而 不 
是 默认 的 三 s-node, 那么 还 能 进一步 加 快 计算 速度 (这么 做 的 前 提 是 计算 机 配 有 局 用 了 CUDA 的 
GPU， 并 且 安 装 了 相关 的 驱动 程序 和 库 。 详 情 参 见 附录 A )。 


yarn visualize --gpu 


在 Node.js 中 执行 完 对 算 力 要 求 较 高 的 步骤 后 ， 上 述 命令 还 会 在 dist 文件 夹 下 生成 一 组 图 片 
文件 。 作 为 最 后 一 步 ，yarn visualize 会 编 详 并 局 动 一 个 Web 服务 入 ， 并 在 浏览 做 中 目 动 打 
开 Web 应 用 程序 的 首页 。Web 应 用 程序 的 内 容 来 目 各 种 静态 文件 ， 包 括 上 一 步 中 生成 的 图 片 。 

yarn visualize 命令 还 有 一 些 额 外 的 可 配置 参数 。 比 如 ， 默 认 情 况 下 ， 对 于 每 个 给 定 的 卷 
积 层 ， 它 会 为 其 对 应 的 8 个 过 滤 冀 进行 计算 和 可 视 化 。 你 可 以 用 --filters 选项 改变 过 滤 征 的 
数量 。 例如 ， yarn visualize --filters 32。 除 此 之 外 ， yarn visualize 会 用 源 代 人 码 中 
设置 的 catjpg 图 像 作 为 默认 的 输入 图 像 。 可 以 通过 --image 选项 将 输入 图 像 设 置 为 其 他 文件 。™ 
接 下 来 观察 一 下 由 catjpg 图 像 和 32 个 过 滤 融 得 出 的 绪 采 。 


7.2.1 可 视 化 convnet 内 部 激活 函数 的 输出 


此 处 计算 并 展示 了 对 于 一 个 给 定 的 输入 图 像 ，VGG16 模型 各 卷 积 层 的 特征 图 。 这 些 特征 图 
对 应 的 是 内 部 激活 函数 的 输出 ， 因 为 它们 不 是 模型 的 最 终 输出 〈 模 型 的 最 终 输 出 为 一 个 长 1000 
的 回 量 ， 该 回 量 表示 1000 个 ImageNet 类 别 的 概率 值 )， 而 是 模型 计算 的 中 间 步 又 。 这 些 内 部 激 
活 函 数 让 我 们 可 以 了 解 输入 是 如 何 被 模型 分 解 为 它 所 学 到 的 不 同 特征 的 。 

第 4 章 中 曾 介 绍 过 ， 卷 积 层 输出 的 NHWC 形状 为 [numExamples， height, width, 
channels] 。 此 处 ， 模 型 的 输入 是 单个 图 像 ， 因 此 numExamples 为 1。 我 们 的 目标 是 可 视 化 每 
个 卷 积 层 沿 余下 3 个 维度 〈 高 、 宽 和 通道 ) 的 输出 。 卷 积 层 输出 的 高 和 宽 取 决 于 其 过 滤 需 矿 二 、 
填充 ( padding )、 步 长 (stride )， 以 及 层 输 入 的 高 和 宽 。 一 般 而 言 ， 随 关公 渐 深入 convnet， 输 出 
的 高 和 宽 会 逐 潮 减 小 。 另 一 方面 ， 通 着 的 值 则 会 逐渐 增 大 。 这 是 因为 convnet 经 过 连续 的 表示 转 
换 , 会 提取 出 越 来 越 多 的 特征 。 不 能 将 这 些 卷 积 层 的 通道 理解 为 不 同 的 颜色 通道 ,它们 其 实 是 模 
型 习 得 的 特征 维度 。 这 就 是 为 什么 图 7-8 将 卷 积 层 的 输出 分 解 成 不 同 的 子 图 , 并 用 灰 度 表示 它们 。 
图 7-8 展示 了 对 于 catjpg 输入 图 像 ，VGG16 模 型 中 5 个 卷 积 层 的 激活 函数 输出 。 






































(yarn visualize 支持 绝 大 部 分 图 片 格式 ， 包 括 JPEG 和 PNG。 
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图 7-8 VGG16 模 型 在 对 cat.jpg 图像 进行 推 亲 时 ， 几 个 卷 积 层 的 内 部 激活 函数 的 输出 。 左 侧 展 示 的 是 原 
输入 图 像 、 模 型 预测 中 排名 前 三 的 类 别 和 它们 对 应 的 概率 值 。 可 视 化 的 5 个 卷 积 层 分 别名 为 
blockl convil、 block2 convl、 block3 conv2、block4 conv2 和 Dlock5 conv36o 图 中 
按 它们 在 VGG16 模型 中 的 深度 自 上 而 下 排序 。 也 就 是 说 ，block1_conv1 最 接近 输入 层 ， 
block5_conv1 最 接近 输出 层 。 注意 ,出 于 可 视 化 的 目的 , 此 处 将 所 有 的 内 部 激活 函数 输出 的 图 
像 都 缩放 成 同一 尺寸 。 但 实际 上 , 激活 函数 越 接 近 输 出 层 , 其 输出 图 像 的 尺寸 (分辨 率 ) 就 越 小 ， 
这 是 连续 的 卷 积 和 池 化 造成 的 。 从 后 续 层 的 分 辨 卒 变 得 更 为 模糊 就 可 以 看 出 这 一 后 


内 部 激活 函数 输出 的 第 一 个 特点 是 , 越 是 深入 网 络 , 它们 和 原 输 入 的 区 别 就 越 大 。 徘 近 输 入 
并 的 层 ( 如 block1_conv1 ) 看 上 去 编码 的 是 较 简 单 的 视觉 特征 ,例如 图 像 的 边缘 和 颜色 。 上 有 具体 
而 言 ， 盘 头 A 指 四 的 激活 函数 似乎 对 黄色 和 粉色 有 较量 烈 的 反应 。 而 箭头 B 指 四 的 激活 函数 则 
对 输入 图 像 中 某 些 随同 的 边 绿 区域 有 强烈 反应 。 

然而 ， 与 输入 端的 卷 积 层 不 同 ， 后 续 数 层 (block4_conv2 和 plock5_conv3 ) 激活 顺 数 
的 输出 模式 与 输入 图 像 中 简单 的 像素 层面 表示 相差 甚 远 。 例如 , 图 7-8 中 的 箭头 C 指 向 block4_ 
conv2 中 的 过 滤 硕 。 从 结 末 来 看 ， 它 编码 的 应 该 是 猫 的 面部 特征 ,包括 耳 东 、 眼 睛 和 曙 子 。 我 们 
之 前 在 第 4 章 的 图 4-6 中 展示 过 这 种 渐进 式 特征 提取 的 概念 图 。 当 前 的 例子 将 这 一 概念 进一步 具 
体 化 了 。 然 而， 注意 并 不 是 所 有 层 ( 尤其 是 后 面 数 层 ) 的 过 滤 带 都 能 用 通俗 易 懂 的 语言 来 解释 。 
男 一 个 有 趣 的 现象 是 ， 特 征 图 的 “ 稀 玖 度 ”( sparsity ) 也 会 随 着 层 深 而 增加 。 在 图 7-8 所 展示 的 
第 一 层 中 ， 所 有 的 过 滤 帮 都 被 输入 图 像 激 活 了 ( 即 特征 图 中 的 像 对 有 所 变化 )。 然 而 ， 在 最 后 一 
层 中 ， 有 些 激 活 函数 的 输出 则 为 空 ( 即 像素 的 醒 式 不 发 生 改 变 ， 例 如 图 7-8 中 右 侧 的 最 后 一 行 )。 
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狸猫 (p=0.0425) 
狂 独 (p=0.0125) * 
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这 意味 着 ， 由 这 些 空 过 滤 需 编码 的 特征 并 不 存在 于 当前 的 输入 图 像 中 。 

我 们 刚刚 见证 了 深度 convnet 习 得 的 表示 之 间 的 一 个 重要 量 共通 的 特性 : 层 从 输入 提取 出 的 
特征 会 随 着 层 深 逐渐 趋 于 抽象 。 激活 函数 所 属 的 层 越 深 , 其 携 囊 的 关于 输入 的 信息 就 越 少 ， 关 于 
目标 〈 此 处 的 目标 是 指 输入 图 像 属于 ImageNet 数据 集 1000 种 类 别 中 的 哪 一 种 ) 的 信息 就 越 多 。 
因此 ， 深 度 神 经 网 络 相 当 于 一 个 信息 提纯 的 流水 线 (information distillation pipeline )。 原 始 数据 
会 被 源源 不 断 地 输入 流水 线 中 , 流水 线 则 会 不 断 地 转换 数据 ,剔除 数据 中 和 当前 任务 无 关 的 部 分 ， 
放大 并 逐步 完善 有 助 于 当前 任务 的 部 分 。 尽 管 本 示例 采用 的 是 convnet， 但 是 这 一 特性 对 其 他 次 
度 神 经 网 络 类 型 ( 比如 MLP ) 同样 适用 。 

对 于 相同 的 输入 图 像 ，convnet 和 人 类 视觉 系统 从 中 发 现 的 有 用 信息 可 能 有 所 不 同 。convnet 
的 训练 是 由 数据 驱动 的 ， 因 此 也 容易 受到 训练 集中 偏差 (bias ) 的 影响 。 例 如 ，Marco Ribeiro 和 
其 同事 的 论文 (参见 7.3 市 ) 指出 了 一 个 误 将 图 像 中 的 狗 识别 为 狼 的 和 案例。 在 该 案例 中 ， 网 像 的 
背景 中 有 雪 。, 究 其 原因 , 很 可 能 是 训练 图 像 中 有 狼 的 同时 还 有 雪景 , 而 有 狗 的 图 像 则 无 类 似 背 景 。 

上 述 就 是 我 们 通过 可 视 化 深度 convnet 内 部 激活 函数 的 输出 模式 获得 的 有 用 信息 。 下 一 节 中 
介绍 了 如 何 用 TensorFlow.js 编写 能 够 提取 这 些 内 部 激活 函数 的 输出 的 代码 。 


详解 如 何 提取 内 部 激活 函数 的 输出 

writeInternalActivationAndGetOutput() 申 数 人 见 代 人 码 清单 7-8 ) 封装 了 提取 内 部 
激活 郴 数 的 输出 的 步骤 。 它 的 输入 是 一 个 从 头 构 建 的 或 加 载 的 TensorFlow.]S 模型 对 象 ， 以 及 有 
待 从 中 获取 信息 的 层 名 〈 layerNames )。 其 中 的 关键 步骤 是 创建 一 个 新 的 模型 对 象 
( compositeModel )。 这 个 模型 对 象 有 多 个 输出 ， 包 括 指定 层 的 输出 和 原 模 型 的 输出 。 就 和 第 5 
章 中 的 《 吃 豆 人 》 游 戏 和 目标 检测 示例 一 样 ，compositeModel 是 用 tf.modqel()API 创 建 的 。 
compositeModel 非常 好 用 的 一 点 是 ， 其 predict () 方 法 除了 返回 模型 的 最 终 输 出 外 ， 还 会 返 
回 所 有 层 的 激活 函数 输出 (参见 名 为 outputs 的 变量 )。 代 码 清 单 7-8 中 余下 的 代码 ( 摘自 
Visualize-convnet/main.js ) 负责 的 是 一 些 更 玉 雄 的 任务 ， 包 括 将 模型 的 输出 划 入 单个 过 滤 磊 ， 以 
及 将 它们 作为 文件 写 人 硬盘 。 


代码 清单 7-8 在 Node.js 环境 中 计算 convnet 内 部 激活 子 数 的 输出 


async function writeInternalActivationAndGetOutputl 









































model, layerNames, inputImage, numFilters, outputDir) { 
const layerName2FilepPpaths = {}; 
const layerOutputs = 
layerNames .map (layerName => model.getLayer (layerName) .output).; 


Const compositeModel = tf.model( < 
创建 一 个 模型 .除了 返回 原 
npubes Mmeo0el, LOUE; 模型 的 最 终 输出 外 , 它 还 会 
outputs: JayerOutputs.concat (moaqel .outputsSs [0]) 返回 所 有 想 获 得 的 内 部 激 
3 活 函 数 的 输出 





for (let 1 = 0; 1 < outputs.length - 1; ++1) { 组 成 的 数组 ， 包 括 内 部 激活 函 


const outputs = compositeModel .predict (inputImage).; 
outputs 是 tf.Tensor 对 象 
数 的 输出 和 模型 的 最 终 输出 


const layerName = layerNames[1i]; 
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const activationTensors = 


按 过 滤器 划 Chepr i ou us 

分 卷 积 层 的 outputs[1i] .shapel[loutputs[il].shape.length - 工 ] ， 

激活 函数 的 机 

输出 const actualNumFilters = filters <= activationTensors.length ? 
numFilters : 


activationTensors.length; 
const filepaths = [|]; 
for (let ] = 0; Jj < actualNumFilters; ++]) { 


Const imageTensor = tf.tidyl( 
() => deprocessImage (tf.tile(activationTensors[j], 格式 化 激活 函数 的 输出 
[和 二 人， 张 量 ， 并 将 它们 写 入 硬盘 
Const outputFilePpath = path.joinl( 
outputDir, ‘S${layerName}_${j] + 1}.png ); 
filePpaths.push(outputFilePath); 
await utils.writelImageTensorToFile(imageTensor, outputrFilePath).; 
} 
layerName2FilePpaths[layerName] = filepaths; 
tf.dispose(activationTensors),; 
} 
tf.dispose(outputs.slice(0, outputs.length - 1)); 
return {modelOutput: outputs[loutputs.length - 1], layerName2FilepPaths}; 
} 


7.2.2 ”找到 卷 积 层 的 敏感 点 : 最 大 化 激活 函数 输出 的 输入 图 像 


另 一 种 诠释 convnet 训练 成 采 的 方法 是 找到 内 部 卷 积 层 所 敏感 的 输入 网 像 。 这 些 卷 积 过 滤 骨 
所 敏感 的 输入 图 像 ， 是 指 那 些 能 够 最 大 化 其 激活 函数 输出 ( 沿 输 出 的 高 和 宽 维 度 取 均值 ) 的 输入 
图 像 。 通 过 观察 这 些 能 最 大 激活 convnet 各 层 的 输入 ， 可 以 推断 出 各 层 经 过 训练 后 主要 负 贡 提取 
哪些 特征 。 我 们 需要 通过 一 个 小 技巧 找到 最 大 激活 convnet 各 层 的 输入 。 这 个 小 撤 巧 会 反 转 “ 篆 
规 ” 的 神经 网 络 训练 流程 。 图 7-9a 展示 了 用 tf .Model .fit() 训练 神经 网 络 时 的 示意 图 。 我 们 
首先 会 固化 输入 数据 ,使 用 反 加 传播， 让 模型 的 权重 〈( 即 所 有 可 训练 层 的 核 和 侦 差 ) 根据 损失 活 
数 " 进 行 更 新 。 

然而 ,我 们 也 完全 可 以 调换 输入 和 权重 的 角色 。 换言之 , 我 们 可 以 固化 权重 ,然后 让 反问 传 
播 对 输入 进行 更 新 。 同 时 , 还 可 以 调整 损失 也 数 ,使 反 癌 传播 对 输入 的 更 新 可 以 最 大 化 某 个 卷 积 
过 滤器 的 输出 ( 沿 输 出 的 高 和 宽 维 度 取 均 值 )。 

图 7-9b 阐释 了 这 一 过 程 。 负 规模 型 训练 过 程 是 基于 权重 空间 的 梯度 下 降 〈 gradient descent in 
weight space )， 而 这 一 过 程 则 是 基于 输入 空间 的 梯度 上 升 ( gradient ascent in input space )。 下 一 人 
中 展示 了 实现 梯度 上 升 的 代码 ， 有 兴趣 的 读者 可 以 进一步 探索 。 

图 7-10 展示 了 对 VGG16 模 型 (和 之 前 用 于 展示 内 部 激活 函数 输出 的 模型 是 同一 个 ) 的 4 个 
卷 积 层 在 输入 空间 进行 梯度 上 升 的 结果 。 束 和 之 前 的 图 一 样 ， 层 深 目 上 而 下 逐 淘 增 加 。 从 这 些 最 
大 化 激活 函数 输出 的 输入 图 像 中 可 以 看 出 一 些 有 趣 的 模式 。 












































J 可 以 将 这 个 示意 图 看 作 图 2-9 的 简化 版 。 在 第 2 草 中 ， 我 们 曾 用 图 2-9 介绍 过 反问 传播 的 原理 。 
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a. 权重 空间 的 梯度 下 降 b. 输入 空间 的 梯度 上 升 


通过 反 生 传播 更 新 





最 大 化 
激活 函 
数 输出 
的 目 定 
义 损 失 





通过 反 向 传播 更 新 





图 7-9 展示 如 何 找到 最 大 化 卷 积 过 滤 右 输出 的 输入 图 像 的 示意 图 。(a) 币 规 神经 网 络 训练 过 程 ， 
基于 在 权重 空间 的 梯度 下 降 。(b) 寻找 最 大 化 卷 积 过 滤 带 输出 的 输入 图 像 ， 基 于 在 输入 空 
间 的 樟 度 上 升 。 注 意 ， 此 图 和 之 前 展示 的 一 些 模型 概念 加 有 所 不 同 ， 因 为 它 分 开 显 示 了 
权重 部 分 和 模型 主体 。 这 是 为 了 突出 反 向 传播 中 可 更 新 的 两 个 量 : 权重 和 输入 


VISUALIZATION 





What to visualize: | Maximally-activating input images ™ | 
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图 7-10 最 大 激活 YGG16 深度 convnet 的 4 个 卷 积 层 的 输入 图 像 。 这 些 图 像 是 通过 对 
输入 进行 80 个 迭代 的 梯度 上 升 得 到 的 
口 首先 ， 和 之 前 展示 的 内 部 激活 函数 输出 的 灰 度 图 像 不 同 ， 这 些 图 像 是 彩色 的 ， 因 为 这 就 
是 实际 输入 convnet 的 图 像 格 式 ， 即 有 3 个 颜色 通道 (RGB ) 的 彩色 图 像 。 
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口 最 浅 的 一 层 (block1_conv1 ) 对 人 简单 的 模式 很 敏感 ,例如 全 局 性 的 颜色 和 具有 一 定 朝 问 
的 边 绿 。 
口 中 间 层 (如 block2_conv1 ) 对 各 种 边 绿 模式 组 合 而 成 的 简单 材质 有 最 强烈 的 反应 。 
口 更 深层 的 过 滤 希 则 对 更 复杂 的 模式 最 为 敏感 。 这 些 模式 更 接近 于 目 然 生成 的 图 像 〈 当然 ， 
也 是 来 自 ImnageNet 数据 集 ) 中 的 视觉 特征 ， 例 如 颗粒 、 了 筷 洞 、 彩 条 、 羽 毛 、 波 浪 等 。 
一 般 而 言 , 随 着 层 深 的 增加 , 输入 的 模式 会 越 来 越 脱离 简单 的 像素 层 模式 , 变 得 越 来 越 复 林 ， 
并 且 规 模 也 越 来 越 大 。 这 反映 出 次 度 convnet 会 逐 层 地 对 特征 进行 提纯 ， 将 较为 基础 的 模式 组 成 
更 复杂 的 模式 。 观 察 一 下 同一 层 的 过 滤 希 ,尽管 它们 的 抽象 程度 较为 接近 , 输入 的 具体 模式 却 过 
异 。 这 意味 看 对 于 相同 的 输入 ,每 层 会 从 中 得 出 多 个 互补 的 表示 ,， 从 而 最 大 化 从 输入 中 提取 出 的 
有 用 信息 ， 进 而 用 这 些 信息 实现 模型 的 训练 目标 。 
详解 输入 空间 中 的 梯度 上 升 
在 可 视 化 convnet 的 示例 中 ， 输 入 空间 中 梯度 上 升 的 核心 逻辑 被 封装 在 main.js 文件 的 
inputGradientAscent () 函数 中 。 代 人 码 清 单 7-9 展示 了 这 部 分 代码 。 因 为 它 对 算 力 和 内 存 的 要 
求 ， 所 以 这 部 分 代码 需要 在 Node.js 环境 中 运行 。” 注意， 尽管 在 基本 概念 上 ， 输 入 空间 中 的 梯 
度 上 升 和 基于 权重 空间 的 梯度 下 降 的 模型 训练 过 程 是 相似 的 见 图 7-10 )， 但 我 们 不 能 直接 复 用 
tf .Model .fit()。 这 是 因为 该 多数 是 专 为 固化 输入 然后 更 新 权重 的 场景 设计 的 。 我 们 必须 目 定 
义 一 个 函数 ， 用 它 计 算 给 定 输入 图 像 的 “损失 ”。 下 面 这 行 代码 是 该 冰 数 的 定义 。 


const lossFunction = (input) => 
auxModel.apply (input, {training: true}) .gather([filterIindex], 3); 


此 处 ，auxModel 是 用 熟悉 的 tf .model () 国 数 创建 的 辅助 性 ( auxiliary ) 模型 对 象 。 它 的 
输入 和 原 模型 相同 , 但 输出 是 给 定 卷 积 层 的 激活 图 数 输出 。 调 用 辅助 模型 的 apply () 方 法 就 可 
以 获得 该 层 的 激活 函数 输出 。apply() 和 predict() 类 似 ， 因 为 它们 都 是 对 模型 进行 正 向 传 
播 。 但 是 ，apply () 还 提供 了 一 些 额 外 的 配置 选项 ， 如 上 面 的 代码 所 示 ， 可 以 将 training 选 
项 设 为 true。 如 条 不 将 training 选项 设置 为 true， 就 不 能 进行 反 回 传播 。 这 是 因为 默认 情 
况 下 ， 为 了 减少 内 存 占用 , 正 回 传 播 会 回收 中 间 层 的 激活 函数 输出 。 通 过 将 training 选项 设 
为 true,apply () 调用 会 保留 这 些 内 部 的 激活 函数 输出 ,从 而 使 反问 传播 成 为 可 能 ,gather () 
调用 可 以 提取 特定 过 滤 融 的 激活 图 数 输 出 。 这 是 有 必要 的 ， 因 为 最 大 化 激活 函数 输出 的 输入 是 
按照 单个 过 滤 需 来 计算 的 。 即 使 是 过 滤 硕 属于 同一 层 ， 过 滤 需 间 的 结果 也 不 同 〈 人 参见 图 7-10 中 
示例 的 结果 )。 

目 定 义 好 损失 孔 数 后 ， 将 它 传人 tf.grad() 方 法 ， 从 而 获得 一 个 新 痕 数 。 该 函数 可 以 用 于 
计算 损失 关于 输入 的 梯度 。 

const gradFunction = tf.grad(lossFunction).; 

值得 注意 的 是 ，tf .grad() 并 不 会 下 接 给 出 梯度 值 ; 相反 , 它 返 回 的 是 一 个 函数 ( 上面 这 行 
代码 中 的 gradFunction )， 该 男 数 会 在 调用 时 返回 梯度 值 。 





















































@) 对 于 比 VGG16 模型 更 小 的 convnet 而 言 ， 在 浏览 器 环境 中 ， 在 合理 的 时 间 内 完成 该 算法 的 执行 也 是 可 能 的 。 
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得 到 檐 上 度 计算 函数 后 ,就 可 以 在 循环 中 调用 它 。 在 每 一 次 迭代 中 ， 用 孙 数 返回 的 柳 度 值 更 新 
输入 图 像 。 es 本 一 个 重要 但 不 易 察 觉 的 小 拉 巧 : 在 将 梯度 值 加 到 输入 图 像 之 前 ,要 先 标 
准 化 标 度 值 。 这 能 够 确保 每 次 迭代 对 输入 更 新 的 数值 量 级 是 一 怪 的 。 


Const norm = tf.sgqrt (tf.mean (tf.square (grads))).adgd(EPSILON); 





return grads.div (norm);} 


经 过 对 输入 图 像 长 达 80 个 迭代 的 更 新 ， 最 终 会 得 到 如 图 7-10 所 示 的 结果 。 
代码 清单 7-9 输入 空间 中 的 梯度 上 升 (运行 于 Node.js 环境 中 ， 代 码 摘 目 visualize-convnet/ 


main.js ) 
function inputGradientAscent ( 
model, layerName, filterIindex, iterations = 80) { 
return tf.tidy(() => { 
Const ijimageH = model.inputs[0] .shapel[ll1]; 
const imageW = model.inputs[0] .shapel[l2]; 
const imageDepth = model.inputs[0] .shapel[l3]; 





const layerOutput = model.getLayer (layerName) .output; 


创建 一 ee ee 
同 ， 但 输出 是 给 定 卷 积 层 的 输出 


Const auxMoae] = tf.modell(t{ 
inputs: model.inputs, 
outputs: layerOutput 

}y 


Const lossFunction = (input) => 
auxModel.apply (input, {training: true}) .gather([filterIindex], 3); 


const gradFunction = tf.grad(lossFunction).; 





let image = tf.randomUniform([1, imageH, imageW, imageDepth], 0, 1) 
.mul(20).add(128); -一 
for (let i = 0; i < iterations; ++1i) { 
const scaledGrads = tf.tidy(() => { 
const grads = gradFunction (image); 
Const norm = tf.sgqrt (tf.mean (tf.square (grads))).adgd(EPSILON).; 
return grads.div (norm).; 
}); 
image = tf.clipByValuel( 
image.add (scaledGrads), 0, 255); 








} 


return deprocessImage (image); 进行 一 个 送 代 的 梯度 上 升 : 
ys 朝 梯 度 的 方向 更 新 输入 图 像 


} 


该 函数 负责 计算 卷 积 过 滤器 ES 
输出 关于 输入 图 像 的 梯度 一 个 重要 的 小 技巧 : 对 梯度 值 进 
行 缩放 。 缩 放 的 程度 为 norm 
该 函数 负责 计算 在 指定 过 滤器 
索引 的 卷 积 层 输 出 值 生成 一 个 随机 图 像 作 为 
梯度 上 升 的 起 点 
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7.2.3 可视化 和 解读 convnet 的 分 类 结果 


本 章 要 介绍 的 最 后 一 个 可 视 化 训练 后 的 convnet 的 技巧 是 类 激活 图 ( class activation map， 
CAM ) 算法 。CAM 算法 自在 回答 这 样 一 个 问题 :“ 主 要 是 输入 图 像 的 哪些 部 分 导致 convnet 输出 
其 概率 值 最 高 的 分 类 预测 ?” ”例如 ， 将 catjpg 文件 传人 VGG16 模型 时 ， 模 型 预测 出 的 最 可 能 的 
类 别 是 “埃及 猎 ”"， 其 概率 值 约 为 0.89。 但 是 仅 赁 输入 的 图 像 和 输出 的 分 类 ， 我 们 还 是 无 法 判断 
到 底 是 图 像 的 哪些 部 分 促成 了 最 后 的 预测 绪 果 。 显 然 ,， 下 党 上 而 言 ， 输 入 图 像 的 某 些 部 分 〈 比如 
猫 的 头 部 ) 肯定 相 比 于 其 他 部 分 ( 比如 白色 的 背景 ) 是 更 重要 的 预测 依据 。 但 有 没有 什么 客观 的 
方法 来 量化 输入 图 像 各 部 分 对 预测 的 重要 性 呢 ? 

答案 是 肯定 的 ! 而 且 方 法 不 止 一 种 ，CAM 算法 就 是 其 中 之 一 。 "对 于 给 定 的 convnet 输入 图 
像 和 分 类 结 末 ，CAM 会 生成 一 个 热 图 ， 该 热 图 会 为 输入 网 像 的 各 个 部 分 分 配 其 对 应 的 重要 性 指 
数 。 图 7-11 展示 了 用 CAM 算法 生成 的 3 个 热 图 。 这 3 个 热 图 分 别 车 加 在 3 个 输入 图 像 ， 即 猫 、 
猎头 认 和 两 涉 大 象 上 。 在 猫 的 热 图 中 ,可 以 清楚 地 看 到 猫 的 头 部 轮廓 的 重要 性 最 高 。 根 据 这 个 现 
象 可 以 猜测 ,这 是 因为 轮廓 能 够 体现 出 猫 的 头 部 形状 ， 而 猫 的 头 部 形状 是 其 独特 特征 。 猫 头 诀 的 
热 图 也 满足 这 个 猜想 , 因为 热 图 中 较 突出 的 部 分 是 其 头 部 和 运 膀 部 分 ,两 涉 大 象 的 热 图 比较 特别 ， 
因为 它 和 前 两 个 图 像 不 同 ,， 其 中 包含 两 个 动物 而 不 是 一 个 。 热 图 中 ,两 涉 大 象 的 头 部 区 域 的 重要 
性 指数 最 高 , 尤其 是 瞄 子 部 分 和 耳 条 部 分 。 这 很 可 能 是 因为 ， 虹 子 长 度 和 耳 东 太 寸 是 区 分 非洲 象 
(模型 预测 的 最 可 能 的 类 别 ) 和 印度 象 ( 模型 输出 的 可 能 性 第 三 的 类 别 ) 的 关键 依据 。 7 
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a b C 























“埃及 猫 (p= 0.8856) * 乌 林 吕 (p= 0.9850) “非洲 象 (p= 0.6495) 
“ 狸猫 (p = 0.0425) * 狐 猴 (p= 0.0042) “长 牙 象 (p= 0.2529) 
“ 猫 独 (p = 0.0125) “ 鹊 葛 (p= 0.0040) “印度 象 (p= 0.0971) 


图 7-11 用 CAM 算 法 为 VGG16 深度 convnet 的 3 个 输入 图 像 生 成 的 3 个 热 图 。 
3 个 热 图 分 别 琶 加 在 3 个 输入 图 像 上 


Q) CAM 算法 是 在 Bolei Zhou 及 其 同僚 于 2016 年 发 表 的 “Learning Deep Features for Discriminative Localization” 一 文中 
首次 提出 的 。 男 一 个 车 名 的 算法 是 局 部 可 理解 的 与 模型 无 关 的 解释 (local interpretable model-agnostic explanations， 
LIME )， 参 见 Marco Tulio Ribeiro 的 博客 文章 “LIME 一 Local Interpretable Model-Agnostic Explanations”。 
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CAM 算法 的 技术 细 市 

CAM 算法 非常 强大 ， 它 背后 的 思想 却 并 不 复 洒 。 信 而 言 之 ,，CAM 图 中 每 个 像素 表示 ， 如 采 
该 像 系 值 增加 一 个 单位 ， 当 前 概率 值 最 高 的 分 类 的 概率 值 会 有 多 少 变化 。 具 体 而 言 ，CAM 算法 
涉及 以 下 几 个 步骤 。 

(1) 找到 convnet 最 后 一 个 ( 即 最 深 的 ) 卷 积 层 。 在 VGG16 模型 中 为 block5_conv3。 

(2) 获取 模型 输出 中 概率 值 最 高 的 类 别 的 概率 值 ， 然 后 计算 它 关 于 卷 积 层 输出 的 梯度 。 

(3) 梯度 的 形状 为 [1，h，w，numFilters]， 其 中 hn、w 和 numFilters 分 别 是 卷 积 层 输 
出 的 高 、 宽 和 过 滤 需 数量 。 我 们 随后 治 样 例 、 高 和 宽 这 几 个 维度 对 梯度 取 均 信 ， 最 后 得 到 一 个 形 
状 为 [numFilters] 的 张 量 。 这 是 一 个 重要 性 指数 组 成 的 数组 ， 其 中 每 个 元 素 对 应 卷 积 层 的 一 个 
过 小 前 。 

(4) 利用 广播 机 制 (参见 B.2.2 市 )， 将 重要 性 指数 张 量 (形状 为 [numFilters] ) 乘 上 卷 积 
层 的 实际 输出 值 ( 形状 为 [1，h，w，numFilters] )。 其 结果 为 一 个 新 的 、 形 状 为 [1，h, w,， 
numFilters] 的 张 量 。 它 是 卷 积 层 输出 经 过 重要 性 指数 缩放 的 版 本 。 

(5) 最 后 ， 将 经 过 重要 性 指数 缩放 的 卷 积 层 输出 治 最 后 一 个 维度 〈 过 滤 各 维度 ) 取 平 均 信 并 
去 除 第 一 个 维度 〈 样 例 维度 )。 其 结 末 就 是 一 个 形状 为 [h, wj 的 灰 度 图 像 。 该 图 像 中 的 像素 值 就 
是 该 图 像 部 分 对 概率 最 高 的 预测 结果 的 重要 程度 。 然 而 ， 该 图 像 会 包含 负 信 ， 并 且 其 太 寸 (14 
像素 x 14 像 系 ) 要 比 原 输入 图 像 (VGG16 模型 中 为 224 像素 x224 像 系 ) 更 小 。 因 此 , 在 将 CAM 
图 二 加 到 原 图 上 之 前 ， 还 需要 将 其 中 的 负 值 变 为 索 ， 然 后 对 它 进行 升 采样 。 

上 上述 算法 的 具体 代码 位 于 visualize-convnet/main.]s 中 的 gradCclassActivationMap () 困 数 
下 。 尽 管 黑 认 条 件 下 ， 它 会 在 Node.js 环境 中 和 运行， 但 它 实际 需要 的 算 力 要 过 低 于 上 一 他 
inputGradientAscent 中 数 中 的 算法 。 因此 ， 即使 是 在 浏览 各 环 境 中 运行 CAM 算法 ， 运行 速 
度 应 该 也 在 可 接受 范围 内 。 

本 章 中 我 们 探讨 了 两 件 事 : 一 是 如 何在 训练 机 需 学 习 模 型 之 前 可 视 化 数据 , 二 是 如 何 可 视 化 
训练 后 的 模型 。 我 们 故意 省 略 了 这 两 步 中 间 的 一 步 ， 即 如 何 可 视 化 训练 中 的 模型 。 这 将 是 下 一 草 
的 重点 。 之 所 以 在 本 章 不 提 及 训练 过 程 , 是 因为 它 与 灭 拟 合 和 过 拟 合 的 相关 概念 及 现象 紧密 相关 。 
这 两 个 概念 对 任何 监督 式 学 习 任 务 都 是 至 关 重 要 的 ， 因 此 值得 专门 讲解 。 有 了 可 视 化 ,判断 并 修 
正 欠 拟 合 和 过 拟 合 会 变 得 轻松 许多 。 下 一 章 中 ， 我 们 将 回顾 本 和 草 前 半 部 分 介绍 的 协 s-vis 模块 ， 
并 介绍 它 除 了 拥有 本 草 提 及 的 数据 可 视 化 功能 外 ， 还 能 如 何 帮 我 们 展示 模型 的 训练 过 程 。 


7.3 延展 阅读 和 补充 资料 


口 Marco Tulio Ribeiro 、Sameer Singh 和 Carlos Guestrin 于 2016 年 发 表 的 文章 “Why ShouldI 
Trust You? Explaining the Predictions of Any Classifier 。 

口 TensorSpace 网 站 使 用 三 维 动画 在 浏览 需 中 可 视 化 convnet 的 拓扑 结构 和 内 部 激活 吨 数 输 
出 。 它 背后 使 用 了 TensorFlow.js、three.js 和 tween.js 等 技术 。 

口 TensorFlow.js 的 tSNE 库 用 WebGL 高 效 地 实现 了 基于 t 分 布 的 随机 近邻 移入 (t-distributed 
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stochastic neighbor embedding, tSNE ) 算法 。 它 可 以 将 高 维 的 数据 集 投影 到 二 维 空间 ， 并 
日 保留 原 数 据 中 的 重要 结构 。 因 此 ， 你 可 以 用 它 可 视 化 高 维 的 数据 集 。 


7.4 练习 


(1) 试验 tfjs.vis.1inechart() 的 以 下 特性 。 

a. 修改 代码 清单 7-2 中 的 代码 ， 观 察 当 绘制 的 两 个 序列 的 x 坐标 不 同时 , 绘制 出 的 图 有 什么 变 
化 。 例 如 ， 可 以 将 第 一 个 序列 的 x 坐标 值 设 为 1、3、5 和 和 7， 将 第 二 个 序列 的 值 设 为 2、4、6 和 8。 

b. 示例 CodePen 中 绘制 折线 图 时 使 用 的 序列 数据 都 不 包含 重复 的 x 坐标 值 。 探索 一 下 ， 当 序 
列 中 包含 x 坐标 值 相 同 的 数据 点 时 ,1inechart () 函数 会 如 何 处 理 序 列 中 的 数据 。 例如 ,可 以 在 
数据 序列 中 加 入 两 个 数据 点 ， 将 它们 的 x 坐 标 都 设 为 0, ?了 坐标 则 设 为 不 同 的 仁 ， 比 如 -5 和 5。 

(2) 在 可 视 化 convnet 的 示例 中 ,使 用 yarn visualize 的 --image 选项 配置 你 自己 的 输入 
图 像 。 因 为 我 们 在 7.2 市 中 只 使 用 过 动物 图 像 ， 所 以 你 可 以 信 此 机 会 探索 其 他 类 型 的 图 像 ， 例 如 














人 、 车 辆 、 家 大 用 品 和 目 然 景观 。 看 看 能 从 这 些 图 像 的 内 部 激活 函数 输出 和 CAM 图 获得 什么 有 
用 的 信息 。 


(3) 在 计算 VGG16 模型 的 CAM 图 的 示例 中 , 在 计算 VGG16 模型 的 CAM 图 的 示例 中 , 我 们 
获取 了 模型 输出 中 概率 值 最 高 的 类 别 的 概率 值 ， 然 后 计算 了 它 关 于 最 后 一 个 卷 积 层 的 输出 的 梯 
度 。 如 打 改 成 计算 概率 值 不 是 最 高 的 类 别 的 梯度 会 怎样 呢 ? 此 处 预期 的 结 末 是 ,由 此 得 出 的 CAM 
图 不 会 标 出 和 输入 网 像 内 容 实际 相关 的 关键 部 位 。 修 改 并 重新 执行 可 视 化 convnet 示例 的 代码 来 确 
认 这 一 点 。 有 具体 而 言 ， 用 于 梯度 计算 的 类 别 的 索引 会 作为 参数 传人 gragdClassActivationMap () 
也 数 中 。 该 函数 的 定义 位 于 visualize-convnet/cam.js 文件 ， 而 它 的 调用 则 位 于 visualize-convnet/ 
main.js 文件 。 








7.5 ”小结 


口 我 们 学 习 了 tfjs-vis 模块 的 基本 使 用 方法 。 它 是 一 个 和 TensorFlow.js 深度 集成 的 可 视 化 库 ， 
并 且 可 以 在 浏 览 套 中 绘制 基本 类 型 的 图 。 

口 数据 可 视 化 是 机 需 学 习 不 可 分 割 的 一 部 分 。 有 效 且 高 效 的 可 视 化 数据 ， 可 以 揭示 本 来 很 
难 从 原始 数据 中 发 现 的 模式 ， 并 提供 关于 数据 有 用 的 信息 。 耶 拿 天 气 预测 示例 验证 了 这 
二 

口 可 以 从 训练 后 的 神经 网 络 提 取出 关于 模型 的 丰富 的 模式 和 信息 。 本 章 中 展示 了 如 何 操作 
以 下 步骤 及 其 实践 结果 。 

加 可 视 化 深度 convnet 内 部 层 的 激活 函数 的 输出 。 

四 计算 最 大 化 各 卷 积 层 输出 的 输入 图 像 。 

国光 | 异 [ 输 入 图 像 中 哪些 主要 部 分 促成 了 convnet 的 分 类 结果 。 这 有 助 于 理解 convnet 的 训 
练 成 果 ， 以 及 它 在 推断 阶段 是 如 何 工作 的 。 
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本 章 要 扣 

口 为 什么 可 视 化 模型 训练 过 程 很 重要 ， 以 及 有 什么 值得 特别 注意 的 地 方 。 

口 如 何 可 视 化 并 理解 欠 拟 合 和 过 拟 合 。 

口 应 对 过 拟 合 的 主要 方式 一 一 正则 化 ， 以 及 如 何 可 视 化 正则 化 的 效 末 。 

口 机 融 尝 习 的 通用 流程 、 包 含 的 步 又 ， 以 及 为 什么 它 对 所 有 监督 式 学 习 任 务 神 有 重要 指导 











在 上 一 草 中 ， 你 学 习 了 如 何在 设计 和 训练 机 融 学 习 模 型 前 ， 用 切 s-vis 可 视 化 数据 。 本 草 将 
接着 上 一 章 讲解 如 何在 模型 的 训练 过 程 中 使 用 tfjs-vis 可 视 化 模型 的 结构 和 度量 指标 。 这 么 做 的 
最 主要 日 的 是 及 时 发 现 欠 拟 合 (underfitting ) 和 过 拟 合 (overfitting ) 这 两 个 对 模型 训练 有 重大 影 
呵 的 现象 。 在 了 解 如 何 发 现 它 们 后 ,我 们 就 可 以 深入 探讨 应 对 方法 ,并 用 可 视 化 方法 来 验证 解决 
方案 的 有 歼 性 。 


8.1 定义 气温 预测 问题 


为 了 诠释 欠 拟 合 和 过 拟 合 的 概念 , 需要 一 个 具体 的 机 带 学 习 问 题 作 为 载体 。 此 处 将 使 用 基于 
上 一 章 介绍 过 的 耶 拿 气象 数据 集 的 气温 预测 问题 。7.1 市 利用 耶 拿 数据 集 在 浏览 带 中 展示 了 数据 
可 视 化 的 威力 和 和 神 益 。 硕 望 你 已 经 通过 上 一 章 中 与 可 视 化 UI 的 交互 ， 对 耶 拿 数据 集 有 了 下 观 的 
了 解 。 现 在 是 时 候 用 它 来 解决 机 带 学 习 问 题 了 。 但 在 此 之 前 ， 我 们 需要 移 定 义 问 题 。 

可 以 将 这 个 预测 任务 看 作 小 型 的 气象 预测 问题 ， 其 目标 是 预测 给 定时 间 点 之 后 24 小 时 内 的 
气温 变化 。 预 测 将 使 用 该 时 间 点 前 10 天 中 收集 的 14 种 气象 指标 作为 预测 依据 。 

尽管 预测 任务 的 概念 很 简单 ， 从 CSYV 文件 生成 数据 集 的 方法 却 不 那么 简单 ， 而 且 需 要 更 具 
体 的 解释 。 这 是 因为 此 处 使 用 的 数据 生成 步骤 和 之 前 见 过 的 有 所 不 同 。 在 之 前 遇 到 的 问题 中 ， 原 
始 数据 的 每 一 行 对 应 一 个 训练 样 例 。 况 尾 花 数据 集 、 波 士 顿 房价 数据 集 和 钓鱼 网 站 检测 数据 集 都 
征 如 此 〈 见 第 2 草 和 第 3 章 ) 然而 ,在 此 问题 中 ， 每 个 样 例 部 是 通过 采样 和 组 合 CSV 文件 中 的 
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多 个 行 得 到 的 ,这 是 因为 气温 预测 不 能 只 看 单个 时 间 点 的 数据 ,而 是 要 看 一 个 时 间 跨 度 内 的 数据 ， 
参见 图 8-1 中 样 例 生成 过 程 的 示意 图 。 

为 了 生成 训练 样 例 的 特征 ,我 们 以 10 天 为 跨度 采样 了 一 组 行 数据 。 我 们 并 未 使 用 10 天 中 所 
有 的 数据 ， 而 是 每 6 行 数 据 只 采样 其 中 1 行 。 这 是 为 何 呢 ? 有 两 个 原因 。 首 先 ， 采 样 所 有 行 得 到 
的 数据 量 是 现在 的 6 倍 ， 这 会 增加 模型 规模 和 训练 时 间 。 其 次 ，1 小 时 的 数据 中 有 很 多 宛 余 〈 例 
如 ，6 小 时 前 的 气压 和 6 小 时 竹 10 分 前 的 气压 值 会 非常 接近 )。 通 过 舍弃 5/6 的 数据 ， 最 后 会 得 
到 一 个 更 加 高 效 且 高 性 能 的 模型 , 而且 不 会 对 檬 型 的 预测 能 力 有 过 多 负面 影响 。 采样 的 行 数据 会 
被 组 合成 一 个 形状 为 [timeSteps，numFeatures] 的 二 维特 征 张 量 。 这 个 张 量 就 是 训练 样 例 
( 见 图 8-1 )。 默 认 条 件 下 ，timesteps 的 值 为 240， 对 应 均匀 分 布 在 10 天 中 的 240 个 采样 点 。 
numFeatures 的 值 为 14， 对 应 CSV 数据 集中 的 14 个 气象 指标 。 




















jena_climate_2009_2016.csv 









单个 样 例 的 特征 张 量 
撒 疏 ， [timeSteps, 
numFeatures] 


step = 6 


step = 6 


numFeatures 





用 于 
预测 
单个 样 例 的 目标 张 量 
形状 : [1] 
delay 
= 144 


图 8-1 展示 如 何 用 表格 数据 生成 单个 训练 样 例 的 示意 图 。 为 了 生成 样 例 的 特征 张 量 ,， 会 每 隔 一 定 
行 数 (例如 step = 6 ) 进行 一 次 采样 , 直到 采样 timeSsteps 次 (例如 timeSteps = 240 )。 
由 此 会 得 到 一 个 形状 为 [timeSteps，numFeatures] 的 张 量 ， 其 中 numFeatures 是 CSV 
文件 中 特征 的 列 数 (默认 值 为 14 ), 要 生成 样 例 的 目标 , 只 和 需要 先 找到 特征 张 量 的 最 后 一 行 ， 
在 此 基础 上 加 上 一 定 延 时 ,得 到 其 后 某 一 行 ( 例如，144 行 后 ) 的 数据 ， 然 后 提取 出 该 行 气 
温 列 的 值 即 可 。 要 生成 多 个 样 例 ， 只 需要 遵循 相同 的 规则 ， 从 CSV 文件 的 不 同行 开始 采样 
即 可 。 这 样 就 完整 定义 了 气温 预测 问题 : 给 定 此 刻 之 前 一 段 时 间 〈 例 如 10 天 ) 内 收集 的 14 
个 气象 指标 的 数据 ， 预 测 距 离 此 刻 一 段 时 间 (例如 24 小 时 ) 后 的 气温 。 本 示意 图 的 代码 位 
于 jena-weather/data.js 文件 的 getNextBatchFEunction() 果 数 中 
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相 较 于 获取 样 例 而 言 ， 获 取样 例 的 目标 相对 简单 : 只 需要 先 找 到 特征 张 量 的 最 后 一 行 ， 在 此 
基础 上 加 上 一 定 延 时 ,得 到 其 后 某 一 行 的 数据 ， 然 后 提取 出 该 行 气温 列 的 值 即 可 。 图 8-1 展示 了 
单个 训练 样 例 的 生成 过 程 。 要 生成 多 个 样 例 ， 只 需要 从 CSYV 文件 的 不 同行 开始 采样 即 可 。 

你 可 能 会 觉得 这 个 气温 预测 问题 的 特征 张 量 看 起 来 有 点 奇怪 ( 见 图 8-1 ): 在 之 前 的 所 有 问题 
中 ,单个 样 例 的 特征 张 量 都 是 一 维 的 ， 封 装 为 批 次 后 的 张 量 是 二 维 的。 然而 ， 此 人 处 单个 样 例 的 特 
征 张 量 就 是 二 维 的 ， 这 香味 着 将 多 个 样 例 封 装 为 批 次 后 的 张 量 会 是 三 维 的 ( 其 形状 为 
[batchSize，timeSteps，numFeatures] )。 你 的 观察 十 分 敏锐 ! 单个 特征 张 量 的 二 维 形状 
是 因为 其 数据 来 自 一 个 事件 序列 ( sequence )。 具体 而 言 , 这 些 数据 是 在 240 个 时 间 点 采样 得 到 的 。 
这 一 点 和 我 们 至 此 所 见 的 所 有 问题 都 不 同 , 因为 在 之 前 的 问题 中 , 样 例 的 输入 特征 并 不 会 模 跨 多 
个 时 间 点 。 无 论 是 读 尾 花 数 据 集中 花 的 尺寸 特征 , 还 是 MNIST 数据 集中 图 像 28 x 28 个 像 桑 的 视 
觉 特征 都 是 如 此 。™ 

这 是 我 们 在 本 书 中 第 一 次 遇 到 序列 输入 数据 。 下 一 章 中 将 深入 探讨 如 何 用 TensorFlow.js 构建 
更 强大 的 、 专 用 于 序列 数据 的 模型 [ 即 循 环 神经 网 络 ( RNN ) ]。 但 此 处 我 们 将 使 用 两 种 已 经 很 熟 
悉 的 模型 来 解雇 当前 的 学 习 任 务 :线性 回归 模型 和 MLP 模型 ,这 两 个 模型 是 学 习 RNN 前 的 预 热 ， 
同时 也 可 以 将 它们 看 作 更 高 阶 模型 的 比较 基准 。 

图 8-1 中 展示 的 数据 生成 流程 的 代码 位 于 jena-weather/data.js 中 的 getNextBatchEunction () 
国 数 里 。 这 个 函数 比较 特别 ， 因 为 它 返 回 的 不 是 一 个 具体 的 值 ， 而 是 一 个 拥有 next () 方 法 的 对 
象 。 在 调用 该 对 象 的 next () 方 法 时 才 会 返回 具体 的 值 。 这 个 这 有 next () 图 数 的 对 象 叫 作 和 迭代 
器 ( iterator )。 为 何 要 间接 地 用 也 数 生成 迭代 上 磊 对 象 ， 而 不 是 直接 写 个 迭代 柴 进 行 迭 代 呢 ?” 痛 先 ， 
这 符合 JavaScript 的 生成 器 (generator ) 或 近 代 器 规范 >”， 同 时 也 符合 tf.data. generator () 
的 函数 签名 要 求 。 这样， 就 可 以 将 它 传人 tf.data.generator() 函数 ， 从 而 方便 地 创建 用 于 模 
型 训练 的 数据 集 对 象 。 其 次 ， 迭代 各 必须 是 可 配置 的 一 一 通过 吧 数 返回 迭代 各 ,使 我 们 可 以 便捷 
地 配置 欠 代 硕 对 象 。 

可 以 从 getNextBatchFunction() 的 靖 数 签名 看 出 可 能 的 配置 选项 。 


getNextBatchFunction\( 
shuffle, lookBack, delay, batchSize, step, minIndex, maxlindex, 


















































normalize, 





includeDateTime) 


其 中 包含 不 少 可 配置 参数 。 例 如 ，lookBack 可 以 用 于 配置 预测 气温 时 回 洲 的 时 间 跟 度 ; 
delay 参数 可 以 用 于 配置 要 预测 距 数 据 采 样 的 时 间 点 多 远 的 气温 ;minIndex 和 maxIndex 可 用 
于 配置 数据 的 采样 范围 。 

通过 将 detNextLBatchEunct1on ( ) 陋 数 传人 tf.data.generator() 了 浮 数 ， 可 以 获得 一 个 
tf.data.Dataset 对 象 ,第 6 童 介 绍 过 , tf.Model 对 象 的 fitDataset () 方 法 可 以 和 tft.adqata. 








中 第 4 章 的 口令 识别 问题 其 实 是 包含 事件 序列 的 ， 即 构成 时 频谱 的 连续 音频 帧 。 然 而 在 该 示例 中 ， 时 频谱 是 作为 网 
像 来 处 理 的 。 因 此 ， 我 们 只 处 理 了 它 的 空间 维度 ， 而 忽略 了 它 的 时 间 维 度 。 
@) 参见 MDN 文档 “Tterators and generators”。 
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Dataset 对 象 结合 起 来 使 用 。 这 使 我 们 可 以 用 原本 因 规 模 过 大 而 无 法 整体 存 人 WebGL 显存 (或 
任何 其 他 内 存 类 型 ) 的 数据 进行 训练 。Dataset 对 象 只 有 在 即将 进入 训练 模式 时 ， 才 会 在 GPU 
上 创建 用 于 训练 的 数据 批 次 。 这 正 是 此 处 的 天 气 预测 问题 将 采用 的 技巧 。 事 实 上 ， 因 为 气象 数据 
集中 的 数据 总 量 和 单个 样 例 的 规模 过 大 ， 所 以 无 法 采用 笛 用 模型 的 fit () 方 法 训练 模型 。 
fitDataset () 调 用 位 于 jena-weathermodels.js 文件 中 。 代 码 清单 8-1 展示 了 它 的 用 法 。 


代码 清单 8-1 用 节 s-vis 可 视 化 基于 fitDataset () 的 训练 过 程 


ava 


第 一 个 Dataset 对 象 负 责 


生成 数据 集 














const trainShuffle true; 
const trainDataset = tf.data.generator\( 

() => jenaWeatherData.getNextBatchFunction'l 
trainShuffle, lookBack, delay, batchSize, step, TRAIN_ MIN_ROW, 
TRAIN_ MAX ROW, normalize, includeDateTime)) .prefetch(8);} 

const evalShuffle = false; 
const valDataset = tf.data.generator!( 
() => jenaWeatherData.getNextBatchFunctionl 
evalShuffle, lookBack, delay, batchSize, step, VAL MIN_ROW, 
VAL MAX_ ROW, normalize, includeDateTime)); 


























await model.fitDataset (trainDataset, { 第 二 个 Dataset 对 象 负责 
batchesPerEpoch: 500, 生成 验证 数据 
epochs, 
callbacks: customCallback, 
Va LOAtLIGNDALas VaLDALASet fitDataset() 的 配置 对 象 中 的 valiqdationData 
}) | 属性 可 以 接收 一 个 数据 集 对 象 或 一 组 张 量 。 此 处 使 
用 的 是 前 者 


fitDataset () 配置 对 象 的 前 两 个 属性 分 别 用 于 配置 模型 训练 的 轮 次 和 每 个 轮 次 使 用 的 批 
次 数 。 第 6 章 曾 介绍 过 ,这 两 个 属性 是 fitpataset () 调用 的 标准 配置 。 然 而 ,我 们 之 前 未 曾 见 
过 第 三 个 属性 (callbacks: customcallback )。 它 是 可 视 化 训练 过 程 的 关键 。 根 据 模 型 训练 
的 环境 是 浏览 硕 还 是 Node.js( 后 者 将 在 下 一 章 中 介绍 )，customCallback 会 接收 不 同 的 参数 。 

在 浏览 套 中 ， 可 以 用 上 tfvis.show.fitcallbacks1() 汕 数 配置 customCallbacks 借助 该 
果 数 ， 只 需 一 行 JavaScript 代码 ， 就 可 以 在 浏览 套 中 可 视 化 模型 的 训练 过 程 。 有 了 它 之 后 ， 我 们 
就 不 必 目 己 获 取 并 记录 每 个 轮 次 中 每 个 批 次 的 损失 和 度量 指标 数据 。 同 时 , 我 们 也 不 必 再 手动 创 
建 和 维护 用 于 图 表 绘 制 的 HTML 元 素 。 


const trainingSurface = 





tfvis.visor() .surface({tab: modelType, name: 'Model Training'}); 
const customCallback = tfvis.show.fitCallbacks (trainingSurface, 
['loss', 'val_loss'], { 
callbacks: ['onBatchEnd', 'onEpochEnd'] 


})); 


fitcallbacks () 的 第 一 个 参数 是 用 tfvis.visor() .surface() 方 法 创建 的 一 个 演 染 区 
域 。 在 切 S-vis 中 ， 它 被 称 为 visor 界面 ( visor surface )。visor 是 一 个 容 硕 ， 可 以 用 它 在 浏览 硕 中 
方便 地 管理 任何 和 机 需 学 习 任 务 相 关 的 可 视 化 图 表 。 结 构 上 而 言 ，visor 可 以 分 为 两 个 层面 。 在 
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较 高 的 层面 ，visor 可 以 是 一 个 或 多 个 标签 页 。 用 户 可 以 通过 单 击 鼠 标 ， 在 这 些 标签 页 间 切 换 。 
在 较 低 的 层面 ， 每 个 标签 页 可 以 包含 一 个 或 多 个 界面 ( surface )。 

可 以 用 tfvis.visor() .surface() 方 法 在 指定 的 visor 标 签 页 创建 界面 。 它 的 名 字 和 所 在 
的 标签 页 ， 可 以 通过 配置 对 象 的 name 和 tab 属性 配置 。visor 不 仅 可 以 用 于 绘制 损失 和 度量 指 
标 曲 线 。 事 实 上 ，7.1 节 的 CodePen 示例 中 介绍 过 的 所 有 基本 图 表 类 型 都 能 绘制 在 visor 界面 上 。 
你 将 有 机 会 在 本 章 末 尾 的 练习 中 验证 这 一 点 。 

fitCcallbacks () 的 第 二 个 参数 用 于 设置 要 在 visor 界面 中 绘制 的 损失 和 度量 指标 曲线 。 本 
示例 将 绘制 的 是 训练 集 和 验证 集 的 损失 曲线 。 第 三 个 参数 包含 一 个 可 以 控制 图 表 更 新 频率 的 属 
性 。 通 过 同时 使 用 onBatchEnda 和 onEpochEnda， 网 表 会 在 每 个 批 次 和 轮 次 的 结尾 更 新 。 下 一 
节 中 ， 我 们 将 通过 观察 fitcallbacks () 绘 制 的 损失 曲线 ， 定 位 训练 过 程 中 发 生 的 欠 拟 合 和 过 
拟 合 现象 。 


8.2 ”从 拟 合 、 过 拟 合 ， 以 及 应 对 措施 


训练 机 器 学 习 模 型 的 过 程 中 ， 我 们 通常 希望 监控 模型 是 否 如 预期 般 捕 捉 到 数据 集中 的 模式 。 
如 果 模 型 不 能 很 好 地 捕捉 数据 中 的 模式 ， 那 么 就 称 该 现象 为 欠 拟 合 ( underfit ); 反之 ， 如 果 模 型 
过 度 学 习 这 些 模式 ， 以 至 于 它 不 能 将 所 学 到 规则 的 泛 化 到 新 数据 上 ， 那 么 就 称 该 现象 为 过 拟 合 
( overfit )。 当 模型 出 现 过 拟 合 时 ， 可 以 通过 正则 化 〈regularization ) 这 样 的 应 对 措施 将 其 拉 回 正 
轨 。 本 市 中 将 展示 如 何 用 可 视 化 检测 这 些 现象 并 验证 应 对 措施 的 成 效 。 
































8.2.1 欠 拟 合 


完 来 试 试用 最 简单 的 机 右 学 习 模 型 之 一 一 一 续 性 回归 模型 一 一 来 解决 气温 预测 问题 ,代码 清 
单 8-2 展示 了 该 模型 的 代码 ( 摘 上 日 jena-weather/index.js )。 它 会 用 一 个 仅 包含 单个 单元 的 密集 层 , 加 
上 默认 的 线性 激活 函数 生成 预测 结果 。 然而 ,， 和 第 2 草 中 为 预测 下 载 任务 所 需 时 间 构 建 的 线性 回归 
檬 型 不 同 ,此 模型 还 有 一 个 额外 的 局 平 化 层 。 这 是 因为 此 问题 中 特征 张 量 的 形状 是 二 维 的 。 为 了 满 
足 线性 回归 使 用 的 密集 层 对 输入 的 要 求 ， 必须 先 将 它 扁平 化 为 一 维 的 。 图 8-2 阐释 了 这 个 局 平 化 的 
过 程 。 值 得 特别 注意 的 一 点 是 ， 这 个 忆 平 化 运算 会 舍弃 原 数 据 中 的 排序 信息 ( 即时 序 信息 )。 


代码 清单 8-2 创建 气温 预测 任务 的 线性 回归 模型 


function buildLinearRegressionModel (inputShape) { 为 了 将 数据 输入 密集 层 ， 要 先 将 输入 张 
const model = tf.sequential (); 























量 的 形状 从 [batchsize, timeSteps,，, 





model.add(tf.layers.flatten({inputShape})).; < numFeatures] 扁 平 化 为 [batchsize 
model.add(tf.layers.dense({units: 1}));} < 二 timeSteps * numFeatures] 
0 将 仅 包含 一 个 单元 的 密集 

| 层 和 默认 的 线性 激活 函数 





作为 线性 回归 器 
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单个 样 例 的 特征 张 量 
形 闫 Ttimesteps; 
numFeatures] 





一 扁平 化 timeSteps x numFeatures 给 入 到 线性 
TT winestone oY TT ED 回归 模型 或 MLP 


numFeatures 





图 8-2 ”将 形状 为 [timeSteps，numFeatures] 的 二 维特 征 张 量 忆 平 化 成 形状 为 [timesteps x 
numFeatures] 的 一 维 张 量 。 代 人 码 清单 8-2 中 的 线性 回归 模型 和 代码 清单 8-3 中 的 MLP 
模型 都 含有 这 个 扁平 化 步骤 

模型 创建 完成 后 ， 用 下 面 的 代码 对 模型 进行 编译 ， 从 而 为 训练 做 准备 。 


model.compile({loss: 'meanAbsoluteError', optimizer: 'rmsprop'});} 


此 处 使 用 meanAbsoluteError 作为 损失 男 数 ， 因 为 本 任务 需要 预测 的 是 连续 的 值 〈 标准 
化 后 的 气温 )。 和 之 前 的 一 些 机 需 学 习 问 题 不 同 ， 此 处 没有 专门 定义 度量 指标 ， 因 为 MAE 损失 
函数 自身 就 是 一 种 易 读 的 度量 指标 。 但 仍 需要 注意 ， 因 为 预测 的 是 标准 化 后 的 气温 ， 所 以 MAE 
损失 必须 乘 以 气温 列 的 标准 差 ( 即 8.476 摄氏 度 )， 才 能 转换 为 气温 预测 的 绝对 误差 。 例 如 ， 如 
果 MAE 是 0.5， 那 么 由 该 运算 得 到 的 预测 误差 就 是 8.476 x 0.5 = 4.238 摄氏 度 。 

在 示例 程序 的 UI 中 ， 找 到 “Model Type” 下 拉 沫 单 ， 选 择 “Linear Regression” 选 项 ， 然 
后 单 击 “Train Model” 按 钮 启动 线性 回归 模型 的 训练 流程 。 训 练 启动 后 ， 你 会 在 页 面 右 侧 弹出 
的 卡片 中 看 到 以 表格 形式 呈现 的 模型 信息 概览 ( 见 图 8-3 中 的 截图 )。 这 个 模型 信息 概览 和 
model .summary () 调 用 输出 的 文本 报告 类 似 , 但 它 是 在 HTML 中 绘制 出 来 的 。 下 面 是 创建 该 
表 的 代码 。 


const surface = tftvls.vISor().Surfacel({fname: 'Model Summary', tab});} 
tfvis.show.modelSummary (surface, model); 


如 上 面 代码 片段 中 的 第 二 行 所 示 5 创建 好 界 面 对 象 后 可 以 将 它 传 入 tfvis. ahow., 
modelSummary () 。 该 图 数 会 在 传人 的 界面 对 象 生成 的 界面 中 绘制 出 模型 信息 概览 

线性 回归 模型 标签 页 分 为 两 部 分 : 上 半 部 分 是 模型 信息 概览 表 , 下 半 部 分 是 显示 模型 训练 的 
损失 曲线 的 图 〈 见 图 8-3 )。 该 图 由 上 一 节 中 介绍 的 fitcallbacks () 调用 创建 。 从 图 中 可 以 看 
出 线性 回归 模型 在 气温 预测 问题 上 的 表现 如 何 。 最 终 , 训练 集 和 验证 集 的 损失 都 在 0.9 左右 振荡 ， 
用 绝对 温度 表示 为 8.476 x 0.9=7.6 摄氏 度 (之 前 介绍 过 ，8.476 是 CSV 文件 中 气温 列 的 标准 差 )。 
也 就 是 说 ， 训 练 后 的 线性 回归 模型 的 平均 预测 误差 是 7.6 摄氏 度 (或 为 13.7 华氏 度 )。 很 明显 ， 
这 个 模型 预测 水 平 非常 糟糕 ， 它 提供 的 气象 预测 也 是 不 可 信 的 。 这 就 是 欠 拟 合 。 
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图 8-3 在 区 s-vis 模块 提供 的 visor 界面 中 可 视 化 线性 回归 模型 的 训练 过 程 。 上 半 部 分 : 模型 信息 概 
览 表 。 下 半 部 分 : 20 个 训练 轮 次 后 的 损失 曲线 。 该 表 是 用 tfvis.show.fitCallbacks () 
创建 的 (参见 jena-weather/index.js ) 





欠 拟 合 通常 是 因为 模型 欠缺 对 特征 和 目标 之 间 关 系 的 表示 容量 (或 者 说 能 力 ), 在 本 示例 中 ， 
线性 回归 模型 的 结构 过 于 简单 ， 因 此 它 很 难 捕捉 到 预测 目标 日 前 10 天 中 的 气象 数据 和 预测 目标 
日 当天 的 气象 数据 之 间 的 关系 。 要 想 应 对 欠 拟 合 , 我 们 通常 会 通过 加 大 模型 的 规模 来 增加 模型 的 
表示 人 能力。 一 般 的 应 对 策略 是 给 模型 添加 更 多 使 用 非 线性 激活 函数 的 层 ， 并 增加 各 层 的 尺寸 ( 比 
如 增加 密集 层 中 的 单元 数 ) 那么 ， 让 我 们 试 着 给 原 线性 回归 模型 添加 一 个 隐藏 层 ， 让 它 变 成 
个 MLP， 再 来 看 看 它 的 性 能 有 何 改进 。 











8.2.2 ”过 拟 合 


代码 清单 8-3 展示 了 创建 MLP 模型 的 函数 (摘自 jena-weather/index.js )。 该 模型 共有 两 个 密集 
屋 ， 其 中 一 个 是 隐藏 层 ， 男 一 个 是 输出 层 。 除 此 之 外 还 有 一 个 扁平 化 屋 ， 其 作用 和 之 前 线性 回归 
模型 中 的 相同 。 通 过 和 代码 清单 8-2 比较 可 以 看 出 , 该 负数 比 puilgdLinearRegressionModel () 
多 了 两 个 参数 。 具 体 而 言 ， 它 们 是 kernelRegularizer 和 dropoutRate。 之 后 ， 我 们 会 依靠 
它们 来 应 对 过 拟 合 。 现 在 就 来 看 看 ， 在 不 用 kernelRegularizer 和 dropoutRate 的 情况 下 ， 
MLP 能 达到 怎样 的 预测 准确 率 。 
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代码 清单 8-3 ”创建 气温 预测 任务 的 MLP 模型 
function buildMLPModel (inputShape, kernelRegularizer, dropoutRate) f{ 
const model = tf.sequential(); 
model.add (tf.layers.flatten({inputShape})); 
model.add (tf.layers.densel(t{ 
units: 32, 


kernelRegularizer 
aCtb lvyalions: ‘elu, 如 果 配 置 了 该 属性 ， 隐 藏 
3 密集 层 的 核 会 被 正则 化 


if (dropoutRate > 0) { 
model.add (tf.layers.dropout ({rate: dropoutRate})).; 
} 


model.add(tf.layers.dense({units: 1}));} 。 会 在 





上 = 人 
和 隐藏 密集 层 和 输出 密集 层 
间 添 加 一 个 dropout 层 


图 8-4a 展示 了 MLP 的 损失 曲线 。 和 线性 回归 模型 的 损失 曲线 相 比 ， 它 有 几 个 重要 的 区 别 。 

口 训 练 集 和 验证 集 的 损失 曲线 展现 出 不 同 的 变化 趋势 。 这 一 点 和 图 8-3 不 同 。 在 图 8-3 中 ， 
两 条 损失 曲线 的 变化 趋势 基本 上 是 一 致 的 。 

口 训练 损失 最 终 收敛 于 一 个 比 之 前 低 得 多 的 误差 值 。 经 过 20 个 轮 次 的 训练 , 训练 损失 的 值 约 
为 0.2， 其 对 应 的 绝对 误差 为 8.476 x 0.2= 1.7 摄 氏 度 。 这 上 比 线性 回归 模型 的 结果 要 好 得 多 。 

口 然而 ,验证 集 损失 仅 在 前 两 个 轮 次 有 所 下 降 , 随后 又 开始 缓慢 上 升 。 在 20 个 轮 次 的 最 后 ， 
它 的 损失 值 要 远 高 于 训练 损失 ( 约 为 0.35， 即 3 摄氏 度 )。 


】 











a b 
损失 曲线 损失 曲线 
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0.2 0.2 
0.0 0.0 
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图 8-4 气温 预测 问题 使 用 的 两 种 不 同 MLP 模型 的 损失 曲线 对 比 。(a) 未 使 用 正则 化 的 MLP 模 型。 
(b) 和 图 8-4a 中 的 MLP 模型 层 数 和 扩 才 相同 的 MLP 模型 ， 但 是 对 密集 层 的 核 使 用 了 L2 
正则 化 。 注 意图 8-4a 和 图 8-4b 的 y 轴 范围 稍 有 不 同 


训练 损失 相 较 之 前 下 降 了 约 3/4。 这 是 因为 MLP 模 型 相 较 线性 回归 模型 多 一 个 密集 层 , 并 且 
可 训练 权重 参数 数量 也 增加 了 几 倍 。 多 出 的 密集 层 和 权重 参数 使 MLP 具有 更 强 的 表示 能 力 。 然 
而 , 模型 能 力 的 增强 会 市 来 一 个 副作用 : 它 会 使 模型 对 训练 集 的 拟 合 能 力 远 超出 对 验证 集 的 拟 合 
能 力 ， 而 后 者 包含 模型 训练 时 未 曾 见 过 的 数据 。 这 个 现象 就 是 过 拟 合 。 这 种 情况 下 ,模型 “过 度 
关注 ”数据 集中 不 相关 的 细节 ， 以 至 于 它 的 预测 能 力 不 能 很 好 地 泛 化 到 未 见 过 的 数据 上 。 
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8.2.3 ”用 权重 正则 化 应 对 过 拟 合并 可 视 化 其 成 效 


在 第 4 章 中 , 我 们 通过 在 模型 中 增加 dropout 层 来 减少 convnet 的 过 拟 合 。 下面 再来 看 看 男 一 
种 缓解 过 拟 合 的 策略 :给 权重 浴 加 正则 化 。 在 耶 拿 气象 预测 重型 的 示例 UI 中 ,如果 选择 “MLP with 
L2 Regularization” 作 为 模型 类 型 ， 它 背后 的 代码 会 像 下 面 这样 调 用 buildMLPModael () 限 数 ( 见 
代码 清单 8-3 )， 创 建 一 个 MLP 模型 。 


model = buildMLPModel (inputShape, tf.regularizers.12()); 











该 函数 的 第 二 个 参数 , 即 tf.regularizers.121() 的 返回 值 , 叫 作 L2 正则 化 器 (L2regularizer )。 
如 果 将 上 面 的 代码 和 代码 清单 8-3 中 的 puildMLPModel () 函数 结合 起 来 看 ， 你 会 发 现 ，L2 正则 
化 器 会 被 传人 隐藏 密集 层 的 配置 对 象 的 kernelRegularizet 属性 。 这 会 将 L2 正则 化 器 绑 定 到 
密集 层 的 核 上 。 如 采 一 个 权重 〈 例如 密集 层 的 核 ) 绑 定 了 正则 化 硕 , 那么 焉 可 以 说 该 权重 被 正则 
化 了 。 与 此 类 似 ， 如 果 模 型 的 部 分 或 全 部 权重 被 正则 化 了 ， 那 么 就 可 以 说 该 模型 被 正则 化 了 。 

正则 化 融会 使 密集 层 的 核 和 它 所 属 的 MLP 模型 发 生 哪些 变化 呢 ?” 它 会 给 损失 函数 额外 添加 
一 项 。 思 考 一 下 非 正 则 化 的 MLP 的 损失 是 如 何 计算 的 : 其 损失 就 是 目标 值 和 模型 预测 值 之 间 的 
MAE。 可 以 用 以 下 伪 代 码 来 表示 。 




















loss = meanAbsoluteError(targets, predictions) 
正则 化 权重 后 ， 模 型 的 损失 孙 数 会 多 出 一 项 。 可 以 用 以 下 伪 代 码 来 表示 。 
loss = meanAbsoluteError(targets, prediciton) + l2Rate * 12 (kernel,) 


此 处 ，12Rate * 12 (kernel) 是 损失 涵 数 多 出 的 L2 正 则 项 。 和 MAE 不同， 此 项 和 模型 的 
预测 值 无 关 。 它 仅 和 被 正则 化 的 核 ( 层 的 权重 ) 的 值 有 关 。 你 可 以 根据 此 项 来 判断 当前 核 值 的 不 
理想 程度 。 

现在 来 看 看 L2 正则 化 函数 12 (kernel ) 的 具体 定义 。 它 计算 的 是 所 有 权重 值 的 平方 和 。 此 
处 可 以 用 一 个 简单 的 例子 来 说 明 。 设 置 核 的 形状 为 [2，2] ， 其 值 为 [[0.1，0.2]，[-0.3， 
-0.4]]。 那 么 就 可 以 用 如 下 方法 计算 正则 项 的 值 。 


1l2(kernel) = 0.1^2 + 0.2%2 + (-0.3)^2 + (-0.4)”^2 = 0.3 


因此 ， 可 以 看 出 ，12 (kernel ) 总 是 会 返回 一 个 正 效 ， 并 且 会 惩 昼 核 值 较 大 的 情况 。 通 过 将 
该 项 添加 到 损失 函数 中 ， 可 以 在 不 改变 其 他 值 的 前 提 下 ， 了 驱使 核 中 元 系 的 绝对 值 变 小 。 

现在 的 总 损失 由 两 项 组 成 : 一 项 表示 目标 和 预测 间 的 误差 , 另 一 项 则 和 kernel 值 的 大 小 有 
关 。 因 此 ,训练 过 程 中 , 柑 型 不 仪 会 尝试 最 小 化 日 标 和 预测 间 的 误差 ,还 会 尽 可 能 减少 核 中 元 又 
的 平方 和 。 通 弟 ,这 两 个 日 标 是 互相 冲突 的 。 例 如, 减 小 核 中 元 系 的 值 也 许可 以 减少 第 二 项 的 值 ， 
但 这 同时 会 使 第 一 项 (MSE ) 的 值 增加 。 那 么 损失 函数 怎样 才能 平衡 两 个 互相 冲突 的 项 之 间 的 相 
对 重要 性 呢 ? 这 就 是 12Rate 系数 的 作用 。 它 可 以 量化 L2 正则 项 , 以 及 目标 与 预测 间 的 误差 项 的 
重要 性 。12Rate 的 值 越 大 ， 训 练 过 程 就 越 倾 回 于 减少 L2 正则 项 的 值 ， 尽管 这 会 加 大 目标 和 预测 
间 的 误差 。12Rate 系数 的 默认 值 为 1e-3。 它 是 一 个 超 参 数 , 并 且 可 以 在 超 参 数 优化 中 进行 调整 。 
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那么 使 用 L2 正则 化 器 到 底 有 什么 好 处 呢 ? 图 8-4b 展示 了 正则 化 后 的 MLP 模 型 的 损失 曲线 。 
通过 将 它 和 未 正则 化 的 版 本 ( 即 图 8-4a 中 的 损失 曲线 ) 进行 比较 ,不 难看 出 ， 正 则 化 版 模型 的 
训练 集 和 验证 集 的 损失 曲线 的 变化 趋势 不 再 像 之 前 一 样 完 全 不 同 。 这 意味 着 模型 不 再 “沉迷 于 ” 
学 习 仅 在 训练 集中 存在 的 那些 奇特 模式 。 相反, 它 学 习 的 是 训练 集中 那些 可 以 很 好 地 泛 化 到 验证 
集中 未 曾 见 过 的 数据 上 的 模式 。 在 正则 化 版 的 MLP 模型 中 ， 仅 第 一 个 密集 层 拥 有 正则 化 器 ,第 
二 个 密集 层 并 没有 。 但 事实 证 明 , 这 已 足以 应 对 训练 中 的 过 拟 合 。 在 下 一 节 中 ,我 们 将 更 深入 地 
探讨 为 什么 更 小 的 核 值 能 缓解 过 拟 合 。 


可 视 化 正则 化 权重 值 的 成 效 

既然 L2 正则 化 器 会 使 隐藏 密集 层 的 核 值 偏好 较 小 的 值 ， 那 么 我 们 必然 可 以 通过 观察 正则 化 
后 MLP 模 型 的 训练 后 核 值 来 验证 这 一 点 。 如 果 一 切 正 如 我 们 所 预期 的 , 那么 正则 化 版 MLP 的 训 
练 后 核 值 会 小 于 非 正 则 化 版 的 。 如 何 用 TensorFlow.js 做 到 这 一 点 呢 ?” 事 实 上 ， 通 过 ts-vis 模块 
提供 的 tfvis.show.layezr() 国 数 ， 仅 用 一 行 代码 就 可 以 可 视 化 TensorFlow.js 模型 的 权重 。 代 
人 码 清单 8-4 展示 了 这 一 过 程 。 这 段 代码 会 在 MLP 模型 训练 完成 后 运行 。tfvis.show.1layer() 
国 数 有 两 个 参数 : 一 个 是 用 于 图 表 绘 制 的 visor 界面 ， 另 一 个 是 要 绘制 的 层 对 象 。 


代码 清单 8-4 可视化 各 层 的 权重 分 布 (摘自 jena-weather/index.js ) 
function visualizeModelLayers(tab, layers, layerNames) { 
layers.forEach( (layer, 1) => { 
const surface = tfvis.visor() .surface({name: layerNames[i], tab});} 
tfvis.show.layer (surface, layer);} 
}); 

} 

图 8-5 展示 了 上 述 代 码 的 运行 结果 。 图 8-5a 和 图 8-5b 分别 展 示 了 正则 化 前 和 正则 化 后 MLP 
模型 的 层 信 息 。 其 中 ，tfvis.show.1layer() 展 示 了 模型 各 层 的 权重 ,包括 权重 的 名 字 、 形 状 、 
参数 数量 、 权 重 值 的 最 小 值 和 最 大 值 、 值 为 零 和 NaN 的 参数 数量 ( 其 中 最 后 一 项 有 助 于 调试 训 
练 过 程 中 遇 到 的 问题 )。 每 个 图 的 下 方 都 包含 一 个 “Show Values Distribution”( 展示 权重 分 布 ) 
按钮 ， 可 以 用 它 来 展示 各 层 的 权重 。 单 击 它 之 后 ， 图 的 下 方 会 显示 出 核 中 参数 值 的 直方 图 。 















































a b 
Dense Layer 1 Dense Layer 1 





则 旨 


> a 嫩 

Weight Name Shape Min Max params Zeros NaNs 
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_ _ 大 大 大 
Weight Name Shape 。 Win Max psrams Zeros NaNs 


dense_Densel/kermnel [3360,32] -0.1837 0.2075 107,520 0 
dense_Denselibias {32] -0.4768 -0.0164 32 0 


dense_Dense1ikernel [3360,32] -0.4642 0.4072 107,520 0 0 
dense_Dense1bias [32] -0.7708 -0.0603 32 0 0 


oN |dense_Densel/kemel " 

















图 8-5 使 用 正则 化 之 前 (图 8-5a ) 和 之 后 (图 8-5b ) 的 核 值 分 布 。 这 两 个 直 
方 图 是 用 tfvis.show.1layer () 创 建 的 。 注 意 它 们 的 x 轴 的 尺度 不 同 
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通过 比较 两 个 版 本 的 MLP 模型 ， 不 难看 出 它们 之 间 的 一 个 明显 区 别 : L2 正则 化 版 模型 的 核 
值 分 布 范 围 要 比 未 使 用 正则 化 的 模型 的 分 布 范 围 罕 得 多 。 权 重 值 的 最 小 值 和 最 大 值 数据 ( 第 一 行 ) 
和 权重 值 的 下 方 图 验证 了 这 一 点 。 这 就 是 正则 化 的 作用 ! 

但 是 ， 为 什么 核 值 减 小 能 缓解 过 拟 合 并 增强 模型 的 泛 化 能 力 呢 ? 可 以 借助 奥 卡 姆 剃刀 原理 
( Occam’s razor principle ) 来 直观 地 理解 这 一 点 。 这 是 因为 L2 正则 化 所 实现 的 正 是 这 一 原理 的 体 
现 。 一 般 而 言 ， 当 权重 参数 的 值 较 大 时 ， 模 型 会 倾 回 于 拟 合 输入 特征 中 的 细节 。 而 当权 重 参 数 的 
值 较 小 时 ， 模 型 则 会 忽略 这 些 细 布 。 在 极端 情况 下 ， 核 值 可 能 为 去 ; 也 就 是 说 ,模型 会 完全 无 视 
对 应 的 输入 特征 。L2 正则 化 会 性 励 模型 更 “功利 ”地 去 学 习 数 据 集 。 它 会 使 模型 尽 可 能 避 倪 较 
大 的 权重 值 , 除非 使 用 较 大 的 值 可 以 带 来 更 大 的 回报 ( 即 目 标 和 预测 间 误 差 的 减少 比 正 则 化 姨 的 
损失 市 来 的 好 处 更 多 )。 

L2 正则 化 只 是 机 需 学 习 从 业者 应 对 过 拟 合 的 诸多 武 硕 中 的 一 个 。 在 第 4 草 ， 我 们 已 经 展示 
了 dropout 层 的 威力 。 一 般 而 言 ，dropout 是 一 种 强大 的 对 抗 过 拟 合 的 方法 。 它 也 同样 适用 于 当前 
的 气温 预测 问题 。 你 可 以 通过 在 示例 程序 的 UI 中 选中 并 运行 “MLP with Dropout” 模 型 类 型 选项 
来 验证 这 一 点 。dropout 版 MLP 和 LL2 正则 化 版 MLP 的 训练 结果 非常 接近 。 在 4.3.2 节 中 ， 我 们 
以 MNIST 数据 集 为 载体 ,讨论 过 dropout 是 如 何 对 抗 过 拟 合 的 ,以 及 它 为 何 是 一 种 有 效 的 方法 ， 
故而 此 人 处 不 再 袭 述 。 表 8-1 中 提供 了 应 对 过 拟 合 的 最 津 用 方法 的 概览 。 该 表 下 观 地 描述 了 每 种 方 
法 的 工作 原理 ， 以 及 在 TensorFlow.js 中 对 应 的 API。 关 于 具体 哪 种 问题 应 该 使 用 哪 种 应 对 方法 ， 
可 以 使 用 下 面 的 方法 决定 : () 借鉴 类 似 场 景 中 的 成 熟 模 型 采用 的 解决 方案 ; (2) 将 应 对 措施 视 作 
一 种 超 参 数 ， 并 通过 超 参 数 优 化 搜索 最 优 措 施 ( 参见 3.1.2 市 )。 除 此 之 外 ， 每 个 应 对 措施 自身 也 
包含 一 些 可 调 参 数 ， 同 样 可 以 用 超 参 数 优 化 来 选择 它们 ( 参见 表 8-1 的 最 后 一 列 )。 


表 8-1 TensorFlow.js 中 应 对 过 拟 合 的 常用 方法 概览 









































方 法 工作 原理 TensorFlow.js 中 对 应 的 API 主要 的 可 调 参 数 
L2 正则 化 需 增加 一 个 针对 权重 大 小 的 正 tf.FegularlzerSs.12() L2 正则 化 系数 
(1.92 regularizer 损失 ( 即 惩罚 ) 项 。 该 项 是 权 ”参见 8.2.3 市 中 的 示例 
重 参 数值 的 平方 和 。 它 会 使 权 
重 趋 于 较 小 的 值 
L1 正则 化 需 和 L2 正则 化 需 类 似 ， 该 方法 tf.regularizers.11() L1 正则 化 系数 
人 也 会 使 权重 趋 于 较 小 的 值 。 然 


而 , 它 给 权重 分 配 的 损失 是 基 

于 参数 绝对 值 的 总 和 ， 而 不 是 

平方 和 。 这 种 正则 化 损失 计算 

方法 会 使 权重 值 更 容易 变 成 

零 ( 也 就 是 说 ， 权 重 值 会 变 得 

更 为 “ 稀 玻 ”) 
L1 正则 化 器 和 L2 正 LI 正则 化 损失 和 L2 正 则 化 损 ”tf.regularizers.1112() LI 正则 化 系数 和 L2 正 则 化 
则 化 器 的 结合 失 的 加 权 和 系数 


方 法 
丢弃 法 〈droponut ) 


批 次 标准 化 〈batch 


normalization ) 





基于 验证 集 损 失 的 早 
停 法 ( early stopping ) 


工作 原理 
在 训练 过 程 〈 而 不 是 推断 过 
程 ) 中 ， 随 机 将 一 部 分 输入 设 
为 去。 这 是 为 了 打破 训练 阶段 
出 现 的 权重 参数 间 经 不 起 推 
敲 的 关联 性 (或 者 用 Geoffrey 
Hinton 的 话 来 说 ,避免 它们 “ 相 
互 勾结 ”) 
在 训练 阶段 ,获取 输入 值 的 均 
值 和 标准 差 。 然 后 利用 获得 的 
数据 将 输入 标准 化 为 均值 为 
零 、 标 准 差 为 1。 最 后 再 输出 
这 些 数据 
如 条 每 个 训练 轮 次 尾声 时 , 在 
验证 集 上 的 损失 值 不 再 下 降 ， 
那么 就 停止 模型 的 训练 





82 大 拟 合 、 


TensorFlow.js 中 对 应 的 API 
tf.layers.dropout() 
参见 4.3.2 节 中 的 示例 


tf.layers 
.batchNormalization() 


tf.callbacks 
.earlyStopping () 
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( 续 ) 
主要 的 可 调 参 数 
丢弃 率 


各 种 参数 (参见 TensorFlow 
网 站 Tensor 页 面 中 的 


tf.layers.batchNorma 
1ization ) 





minDelta: 低 于 该 值 的 损 
失 值 变化 会 被 忽略 

patience: 最 多 可 以 容忍 多 
少 个 连续 轮 次 没有 性 能 改进 





本 厄 中 介绍 了 如 何 可 视 化 欠 拟 合 和 过 拟 合 现象 。 作 为 收尾 ,我 们 提供 了 一 个 示意 图 ， 用 于 快 
速 辨 别 训练 中 是 否 存 在 这 些 现 象 ( 见 图 8-6 )。 如 图 8-6a 所 示 ， 只 要 模型 的 损失 值 不 是 很 理想 ( 比 
预期 值 高 )， 无论 是 在 训练 集 上 还 是 验证 集 上 ， 那么 部 是 欠 拟 合 。 图 8-6b 展示 了 过 拟 合 的 典型 模 
式 。 如 图 所 示 ， 人 尽管 训练 集 上 的 性 能 看 起 来 相当 不 错 ( 损失 值 很 低 ), 但 是 验证 集 的 损失 值 相对 
来 说 不 尽 如 人 人意 很 高 ) 尽管 训练 集 损 失 看 起 来 有 继续 下 降 的 趋势 ， 但 是 验证 集 损失 已 经 停止 
下 降 并 有 升 高 的 倾向 。 图 8-6c 代表 理想 状态 ， 即 训练 集 和 验证 集 的 损失 值 的 变化 趋势 没有 太 大 
区 别 。 可 以 预计 最 后 的 验证 集 损 失 会 足够 低 。 注 意 此 处 的 “足够 低 ” 是 相对 的 ， 因 为 有 些 问 题 没 
有 完美 的 机 兴学 习 解 决 方案 。 将 来 可 能 会 育 现 新 的 、 能 更 好 解决 这 些 问 题 的 模型 。 它 们 可 达到 的 
损失 值 可 能 比 图 8-6c 中 所 展示 的 还 低 。 如 条 真 的 是 这 样 ， 那 么 图 8-6c 对 应 的 模型 就 可 以 看 作 欠 
拟 合 。 我 们 需要 使 用 新 模型 类 型 来 应 对 这 种 欠 拟 合 , 并 且 再 次 用 正则 化 来 应 对 新 训练 周期 中 可 能 
出 现 的 过 拟 合 。 



































c. 介 于 欠 拟 合 和 








a. 欠 拟 合 b. 过 拟 合 过 拟 合 之 间 
训练 
验证 

世 东 世 


训练 轮 次 


展示 模型 训练 过 程 中 出 现 欠 拟 合 ( 图 8-6a )、 过 拟 合 ( 图 8-6b ) 和 刚好 拟 合 (图 8-6c ) 
时 的 损失 曲线 的 示意 图 。 出 于 展示 目的 ， 损 失 曲 线 有 所 简化 


训练 轮 次 训练 轮 次 


图 8-6 
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最 后 需要 注意 一 点 , 训练 过 程 的 可 视 化 不 限于 损失 。 实践 中 还 会 可 视 化 一 些 其 他 的 度量 指标 
辅助 监测 训练 过 程 。 本 书 中 遍布 可 视 化 这 些 度量 指 标的 示例 。 例 如 , 在 第 3 草 中 为 钓鱼 检测 网 站 
训练 二 分 类 带 时 ， 我 们 曾 绘制 过 ROC 曲线 。 再 比如 ， 在 训练 总 尾 花 数据 集 的 分 类 天 时 ， 我 们 还 
绘制 过 分 类 帮 的 混 洒 和 矩阵 ,第 9 半 中 还 会 展示 一 个 示例 ,用 于 可 视 化 文本 生成 带 日 动 生成 的 文本 。 
该 示例 虽 没 有 图 形 用 户 界面 (GUI )， 但 仍 能 实时 且 直 观 地 提供 关于 模型 训练 的 有 用 信息 。 具 体 
而 言 ， 通 过 观察 模型 生成 的 文本 ， 我 们 可 以 直观 地 感受 模型 生成 的 文本 质量 。 


8.3” 机 器 学 习 的 通用 流程 


至 此 , 你 已 经 见识 过 了 设计 和 训练 机 右 学 习 模 型 的 所 有 重要 步 妊 。 前 先 需 要 获取 数据 、 格 式 
化 数据 、 可 视 化 数据 ,并 将 数据 传人 模型 中 ; 随后 还 需要 为 传人 的 数据 集 选 择 合适 的 模型 拓扑 结 
构 和 损失 子 数 ; 下 到 最 后 真正 启动 模型 训练 。 除 此 之 外 ， 我 们 还 讨论 了 一 些 可 能 导致 训练 失败 的 
隐患 : 欠 拟 合 和 过 拟 合 。 因 此 ， 这 是 个 绝 佳 的 时 机 ， 让 我 们 回顾 目前 为 止 所 党 到 的 东西 ， 并 总 结 
出 不 同 数 据 集 共 通 的 机 各 学 习 流 程 。 这 一 流程 就 叫 作 机 器 学 习 的 通用 流程 ( the universal workflow 
of machine learning )。 下 面 列 出 了 该 流程 的 所 有 步 妊 ， 包 括 每 一 步 中 需要 注意 的 一 些 关 键 点 。 
(1) 确定 机 器 学 习 是 否 是 合适 的 解决 方案 。 首 先 需 要 考虑 的 是 ， 机 瑚 学 习 方 法 是 否 适用 于 当 
前 的 任务 。 只 有 得 出 肯定 的 答案 时 ， 才 应 该 进入 后 续 的 步骤 。 有 些 时 候 ， 非 机 需 学 习 方法 能 以 更 
低 的 成 本 达到 ， 甚 至 超过 机 需 学 习 方法 的 性 能 。 例 如 ， 只 要 在 建 模 上 付出 足够 的 精力 ， 最 终 可 以 
训练 出 一 个 能 够 根据 输入 的 文本 数据 “预测 ”两 个 整数 之 和 的 模型 ( 参见 二 s-examples 代码 仓库 
中 的 addition-rnn 示例 )。 但 这 绝 不 是 该 问题 最 高 效 可 靠 的 解决 方案 ， 因 为 单 靠 CPU 上 的 简单 加 
法 运算 就 完全 足够 了 。 
(2) 定义 机 器 学 习 问 题 和 数据 预测 的 目标 。 在 这 一 步 中 ， 你 需要 回答 以 下 两 个 问题 。 
口 有 哪些 可 用 的 数据 ? 在 监督 式 学 习 中 ， 关 于 预测 目标 的 有 标签 数据 是 机 融 学 习 的 前 提 。 
例如 ， 对 于 本 章 开 头 介绍 的 气象 预测 问题 而 言 ， 耶 拿 气象 数据 集 就 是 必 不 可 少 的 。 在 这 
个 阶段 ， 数 据 可 用 性 是 最 关键 的 制约 因素 。 如 果 可 用 的 数据 不 充足 ， 就 可 能 需要 收集 更 
多 数据 ， 并 座 人 来 手动 标记 未 标记 的 数据 集 。 
口 要 解决 的 问题 类 型 是 什么 ”是 二 分 类 问题 、 多 分 类 问题 、 回 归 问 题 ， 还 是 其 他 类 型 的 问 
题 ? 定义 问题 的 类 型 可 以 辅助 模型 架构 选择 、 损 失 也 数 选 择 等 决策 。 
在 进入 下 一 步 前 ， 你 必须 知道 输入 和 输出 是 什么 ， 以 及 将 使 用 的 数据 是 什么 。 同 时 ， 还 需要 
注意 这 一 步 中 隐 含 的 假设 。 
口 假设 输出 可 以 根据 输入 预测 得 到 ( 对 于 该 问题 的 所 有 样 例 ， 输 入 包含 足够 多 的 信息 。 模 
型 单 靠 输入 提供 的 信息 就 能 预测 输出 )。 
口 假设 有 充足 的 数据 ， 足 以 让 模型 习 得 输入 和 输出 间 的 关系 。 
在 得 出 可 用 的 模型 前 ,这 些 都 只 是 有 竺 验证 可 行 或 不 可 行 的 假设 。 而 且 ， 并 不 是 所 有 问题 都 
是 可 解决 的 。 如 果 仅 收集 了 一 个 很 大 的 有 标签 数据 集 来 表示 x 到 ?的 映射 关系 ,那么 这 并 不 代表 
x 对 yy 有 足够 的 预测 能 力 。 例 如 ,假设 目标 是 基于 股票 的 历史 价格 预测 其 未 来 的 价格 ， 那 么 最 后 
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结果 很 可 能 是 不 可 行 的 ， 因 为 股票 的 历史 价格 所 包含 的 信息 不 足以 预测 未 来 价格 。 

一 类 值得 特别 注意 的 不 可 解决 的 问题 是 非 平 稳 〈nonstationary ) 环境 中 的 概念 漂移 〈concept 
drift ) 问题 ， 在 这 类 问题 中 ， 输 入 和 输出 关系 会 随时 间 改 变 。 假 设 你 的 目标 是 构建 一 个 针对 服装 
的 推荐 引擎 。 输 入 是 用 户 的 购物 历史 ,并 且 仅 有 一 年 的 数据 。 此 处 的 关键 问题 是 ， 人 们 的 着 闻 偶 
好 会 随 春 时 间 而 改变 。 去 年 还 在 验证 集 上 表现 出 优异 性 能 的 模型 , 可 能 今天 就 无 法 达到 同样 的 水 
准 。 记 住 ， 机 希 学 习 只 能 学 习 数 据 集 中 存在 的 模式 。 一 个 可 行 的 解决 方案 是 ,不 断 获取 最 新 的 数 
据 ， 并 以 此 训练 新 的 模型 。 

(3) 定义 一 种 能 够 可 靠 地 评估 模型 训练 成 功 与 否 的 度量 指标 。 对 于 人 简单 的 任务 ， 使 用 预测 准 
确 率 、 精 确 率 、 召 回 率 、ROC 曲线 和 AUC 值 就 足够 了 (参见 第 3 草 )。 但 在 很 多 情况 下 ， 可 能 
还 需要 使 用 更 复杂 的 、 和 特定 领域 相关 的 度量 指标 。 客 户 留 存 率 和 销售 量 都 是 这 样 的 例子 ， 因 为 
它们 更 能 反映 更 高 抽象 层面 的 指标 ， 例 如 商业 上 的 成 功 。 

(4) 为 模型 性 能 评估 做 准备 。 设 计 用 于 模型 评 佑 的 验证 过 程 。 具 体 而 言 , 应 该 将 数据 划分 成 3 
个 分 布 一 致 但 互 无 重 登 的 数据 集 : 训练 集 、 验 证 集 和 测试 集 。 验 证 集 和 测试 集 的 数据 一 定 不 能 和 
训练 集 重 准 。 例如 ,在 预测 时 序数 据 时 ， 验 证 集 和 测试 集 数 据 必须 来 日 训练 集 数据 采样 时 间 段 之 
后 的 时 间 段 。 除 此 之 外 ， 数 据 的 预 处 理 代码 还 应 该 用 测试 代码 进行 窗 盖 ， 以 避免 出 现 bug。 

(5) 向 量化 数据 。 将 数据 转换 为 张 量 ， 或 者 说 多 维 数 组 。 这 类 数据 结构 可 以 说 是 机 带 学 习 框 
架 (例如 TensorFlow.js 和 TensorFlow ) 中 模型 的 通用 语言 。 注 章 ， 问 量化 数据 时 ， 应 该 遵循 以 下 
几 个 规范 。 

口 张 量 中 的 值 应 该 缩放 到 较 小 且 居 中 的 范围 ， 例 如 在 [-1，1] 或 [0，11 区 间 中 。 

口 如 有 果 不 同 特征 ( 例如 气温 和 风速 ) 的 取信 范围 不 同 〈 异 质数 据 )， 那 么 一 定 要 先 将 数据 标 

准 化 。 一 般 会 通过 z 分 数 标准 化 算法 将 每 个 特征 变 为 均值 为 0、 标准 差 为 1。 

得 到 输入 数据 和 目标 (输出 ) 数据 的 张 量 表示 后 ， 就 可 以 开始 开发 模型 了 。 

(6) 开发 出 能 超越 常识 性 基准 性 能 的 模型 。 将 非 机 条 学 习 模 型 的 性 能 作为 一 个 常识 性 的 基准 
( 比如， 人口 预 测 的 回归 问题 中 直接 预 测 人 口 平均 值 ， 时 间 序 列 预测 问题 中 下 接 将 上 一 个 数据 点 
作为 预测 结果 ), 并 以 此 证 明 开 发 出 的 机 各 学 习 模 型 确实 能 够 为 解决 当前 问题 币 来 性 能 上 的 提升 。 
但 这 种 性 能 提升 不 是 必然 的 ( 参见 第 (1) 步 )。 

假设 一 切 顺 利 , 接 下 来 就 可 以 开始 考虑 下 述 的 3 个 关键 决定 。 它们 对 构建 一 个 能 超越 常识 性 
基准 性 能 的 机 带 学 习 模 型 而 言 至 关 重 要 。 

口 最 后 一 层 的 激活 函数 : 它 能 对 模型 的 输出 实现 有 效 的 约束 。 激 活 函 数 的 选择 应 该 和 当前 

的 问题 类 型 匹配 。 例 如 ， 在 第 3 章 的 钓鱼 网 站 检测 任务 的 分 类 带 中 ， 最 后 一 层 (输出 层 ) 
使 用 的 是 归 一 化 指数 激活 函数 。 这 是 因为 该 任务 是 一 个 二 分 类 问题 。 而 本 章 中 的 气温 预 
测 模 型 使 用 的 则 是 线性 激活 晒 数 ， 因 为 此 处 的 任务 本 质 上 是 一 个 回归 问题 。 

口 损失 函数 : 和 最 后 一 层 的 激活 函数 类 似 ， 损 失 涵 数 也 应 该 和 当前 的 问题 类 型 匹配 。 例 如 ， 

对 于 二 分 类 问题 应 该 使 用 binarycrossentropy; 对 于 多 分 类 问题 应 该 使 用 categorical- 
Crossentropy,; 对 于 回归 问题 ， 则 应 该 使 用 meanSgquaredError,o 
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口 优化 器 配置 : 优化 如 人 负责 驱动 神经 网 络 的 权重 更 新 。 应 该 使 用 哪 种 优化 絮 呢 ”又 该 采用 
什么 学 习 率 呢 ?” 这 些 问 题 通常 需要 通过 超 参 数 优化 来 回答 。 但 在 绝 大 部 分 情况 下 ， 你 都 
可 以 用 rmsprop 优化 锅 和 它 的 默认 学 习 率 作为 起 点 ， 然 后 在 试验 中 调整 。 

(7) 开发 容量 充足 的 模型 并 刻意 地 过 拟 合 数据 集 。 通 过 手动 改变 超 参 数 ， 可 以 逐渐 扩展 模型 
的 架构 ,最终 达到 一 个 刚好 过 拟 合 训练 集 的 模型 。 之 前 介绍 过 ,监督 式 机 需 学 习 的 一 个 共通 且 核 
心 的 问题 是 如 何在 优化 〈 即 拟 合 训练 时 见 到 的 数据 ) 和 泛 化 ( 即 针 对 未 见 过 的 数据 进行 预测 ) 之 
间 取 得 平衡 。 在 理想 情况 下 ,模型 应 该 介 于 欠 拟 合 和 过 拟 合 之 间 。 也 就 是 说 ,模型 的 容量 应 该 在 
容量 过 低 和 容量 过 高 之 间 取 得 平衡 。 但 只 有 先 跨 过 平衡 的 临界 点 ， 才 能 找到 这 个 临界 点 在 哪里 。 

为 此 ， 需 要 先 开 发 一 个 过 拟 合 的 模型 。 这 通常 相当 容易 ， 可 以 通过 以 下 方法 办 到 : 

口 添加 更 多 层 ; 

口 增加 每 层 的 尺寸 ; 

口 使 用 更 多 的 训练 轮 次 。 

不 要 忘记 , 应 该 时 常用 可 视 化 手段 监测 训练 和 验证 集 上 的 损失 , 以 及 其 他 你 所 关心 的 度量 指 
标 ( 例如 AUC ) 的 性 能 。 当 你 发 现 模 型 在 验证 集 上 的 准确 率 开 始 下 降 时 〈 见 图 8-6b )， 就 说 明 模 
型 开始 过 拟 合 了 。 

(8) 给 模型 添加 正则 化 并 调整 超 参 数 。 下 一 步 是 给 模型 加 上 正则 化 并 进一步 优化 其 超 参数 (一 
般 通 过 目 动 化 方式 )， 从 而 尽 可 能 接近 介 于 欠 拟 合 和 过 拟 合 之 间 的 理想 模型 。 这 一 步 是 最 花 时 间 
的 ,尽管 它 可 以 被 目 动 化 。 在 这 一 步 中 ， 你 会 需要 不 断 地 修改 模型 ， 训 练 它 ， 在 验证 集 上 评估 它 
(这 一 步 还 不 需要 在 测试 集 上 评估 )。 然 后 再 重复 这 一 过 程 ， 直 到 模型 足够 接近 其 理想 状态 。 就 正 
则 化 而 言 ， 可 以 尝试 以 下 步 又。 

口 添加 使 用 不 同 丢 弃 率 的 dropout 层 。 

口 尝试 Ll 和 /或 L2 正则 化 。 

口 洋 试 不 同 的 模型 染 构 ， 比 如 对 层 数 稍 加 调整 。 

口 调整 其 他 超 参 数 ( 例如 密集 层 的 单元 数 )。 

超 参 数 优化 时 要 注意 验证 集 是 否 出 现 过 拟 合 。 因 为 超 参 数 是 根据 验证 集 上 的 性 能 决定 的 , 所 
以 它们 的 值 可 能 会 为 验证 集 过 度 优化 ， 从 而 无 法 真正 泛 化 到 其 他 数据 上 。 此 处 , 测试 集 的 责任 是 
在 超 参数 优化 后 ， 获 得 模型 准确 率 的 无 俩 差 估计 。 因 此 ， 在 超 参 数 调 优 时 不 应 使 用 测试 集 。 

这 就 是 机 需 学 习 的 通用 流程 。 在 第 12 章 中 ， 我 们 会 在 此 基础 上 再 添加 两 个 更 贴近 实用 场景 
的 步骤 (评估 步骤 和 部 署 步 又 )。 但 就 现在 而 言 ， 当 前 的 机 各 学 习 流 程 已 经 足以 帮助 你 将 定义 模 
糊 的 机 融 学 习 概 念 转换 成 训练 完成 旦 准备 好 输出 有 意义 预测 结果 的 模型 。 

有 了 这 些 基 础 知识 后 ， 就 可 以 在 后 绥 儿 章 中 探索 一 些 更 高 级 的 神经 网 络 类 型 。 我 们 将 从 第 9 
章 中 介绍 的 序列 数据 模型 开始 。 




































































8.4 练习 
(1) 在 气温 预测 问题 中 ， 我 们 发 现 线性 回归 模型 训练 中 有 严重 的 欠 拟 合 现象 。 同 时 ， 它 在 训 
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练 集 和 验证 集 上 的 结果 也 不 其 理想 。 给 像 这 样 欠 拟 合 的 线性 回归 模型 瀛 加 L2 正则 化 有 助 于 提升 
它 的 准确 率 吗 ? 通过 修改 jena-weather/models.js 中 的 builgdLinearRegressionModel () 图 数 就 
能 轻松 地 验证 这 一 点 。 

(2) 在 耶 拿 气温 预测 示例 中 ， 我 们 使 用 10 天 的 回溯 时 间作 为 预测 其 后 一 天 气温 的 输入 特征 。 
一 个 目 然 的 问题 是 ,如 采 增 加 回溯 周期 会 如 何 , 是 否 获取 更 多 的 数据 下 能 市 来 更 准确 的 预测 结 
呢 ? 可 以 通过 修改 jena-weather/index.js 文件 中 的 const lookBack 变量 ， 然 后 在 浏览 厦 中 重新 
训练 模型 来 验证 这 一 点 〈 例 如 使 用 “MLP with L2 regularization” 选 项 启动 训练 )。 当 然 ， 延 长 回 
渊 时间 会 增加 输入 特征 的 太 寸 , 从 而 延长 训练 时 间 。 因 此 ,该 问题 的 反面 是 ,能 否 在 不 明显 牺牲 
预测 准确 率 的 情况 下 ， 缩 短 回 溯 时 间 呢 ? 请 试 着 验证 这 一 点 。 
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口 三 s-vis 可 以 用 于 在 浏览 器 中 可 视 化 机 天 学 习 模 型 的 训练 过 程 。 具 体 而 言 ， 本 章 展 示 了 如 
何 用 它 执行 下 列 任务 ， 同 时 还 展示 了 一 些 诠释 这 些 可 视 化 流程 的 具体 例子 。 

国 昌 祝 化 TensorFlow.js 模型 的 拓扑 结构 。 
时 在 训练 阶段 绘制 损失 曲线 和 度量 指标 曲线 。 
加 要 质 训 练 后 的 权重 分 布 。 

口 欠 拟 合 和 过 拟 合 是 机 器 学 习 模 型 训练 时 出 现 的 两 个 基本 现象 。 对 于 任何 机 顺 学 习 问 题 ， 
监测 并 理解 它们 都 是 必要 的 。 通 过 观察 比较 训练 过 程 中 训练 集 和 验证 集 上 的 损失 曲线 ， 就 
可 以 判断 出 模型 是 否 存 在 这 类 问题 。 TensorFlow.]S 内 置 的 tfvis.show.itcallbacks() 
方法 可 以 帮助 我 们 轻松 地 在 浏览 硕 中 绘制 出 这 些 曲 线 。 

口 机 融 学 习 的 通用 流程 由 各 类 监督 式 学 习 任 务 的 第 用 步骤 和 最 佳 实践 构成 。 该 流程 包含 以 
下 步 又 : 衣 先 是 判断 问题 本 里 的 性 质 和 对 数据 的 要 求 ， 随 后 是 得 出 一 个 在 欠 拟 合 和 过 拟 
合 之 间 取 得 平衡 的 模型 。 
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本 章 要 扣 

口 序列 数据 和 非 序 列 数 据 有 何不 同 。 

D 涉及 序列 数据 的 任务 应 该 使 用 哪 种 次 度 学 习 技 巧 。 

口 深度 学 习 中 表示 文本 数据 的 方法 ,包括 one-hot 编码 、multi-hot 编码 和 词 艇 入 。 
口 RNN 是 什么 ， 它 为 何 适用 于 序列 问题 。 

口 何 为 一 维 卷 积 ， 为 何 它 是 RNN 不 错 的 奉 代 品 。 

口 序列 到 序列 任务 的 特质 ， 以 及 如 何 用 注意 力 机 制 处 理 它 们 。 

















本 章 主 要 讨论 序列 数据 相关 的 问题 。 序 列 数据 的 本 质 在 于 其 中 的 元 素 是 有 序 的 。 你 可 能 已 经 
发 现 , 我 们 之 前 其 实 已 经 和 序列 数据 打 过 交道 。 具体 而 言 , 第 7 莉 介 绍 的 耶 拿 气象 数据 集 就 是 序 
列 数据 。 该 数据 集 可 以 表示 为 舱 套 的 数值 数组 。 外 层 数 组 中 元 素 的 顺序 很 重要 ， 因 为 测量 得 到 的 
气象 数据 是 按时 间 顺 序 生成 的 。 如 果 将 外 层 数 组 中 的 元 素 顺 序 反 转 , 气压 原本 的 变化 趋势 就 从 上 
升 变 成 了 下 降 。 这 对 于 预测 未 来 的 天 气 而 言 ， 意 义 是 完全 不 同 的 。 序 列 数据 在 生活 中 无 处 不 在 ， 
包括 股价 、 心 电 图 (ECG ) 谱 数 、 程 序 代码 中 的 字符 串 、 视 频 中 连续 的 帧 和 机 带 人 执行 的 一 连 串 
指令 等 。 序 列 数据 和 第 3 半 中 介绍 的 总 尾 花 数据 集 这 样 的 非 友 列 数据 集 不 同 。 在 后 者 中 ,改变 4 
个 数值 特征 ( 花 芝 和 花瓣 的 长 度 与 宽度 ) 的 顺序 不 会 对 预测 有 任何 影响 。™ 

9.1 方 将 介绍 一 种 第 1 章 中 曾 提 及 过 的 神奇 的 模型 类 型 一 一 循环 神经 网 络 ( recurrent neural 
network, RNN )。 它 专用 于 学 习 序 列 数据 。 我 们 将 先 学 习 RNN 的 一 些 特 殊 特 性 ， 正 是 这 些 特性 使 
这 类 模型 能 够 感知 元 素 的 排序 和 其 中 蕴含 的 信息 。 

9.2 市 将 介绍 一 种 特殊 的 序列 数据 类 型 文本 。 文 本 可 能 是 最 常见 的 序列 数据 类 型 ( 尤其 是 
在 Web 环境 中 )。 我 们 会 先 了 解 深 度 学 习 中 是 如 何 表示 文本 的 ， 以 及 如 何 将 RNN 应 用 到 这 些 表 
示 上 。 随 后 将 探讨 何 为 1D convnet， 以 及 它们 为 何如 此 善于 处 理 文本 数据 。 此 外 ,我 们 还 将 介绍 
为 何 对 于 某 些 学 习 任 务 而 言 ， 它 们 是 RNN 不 错 的 蔡 代 品 。 

在 9.3 节 中 ， 我 们 将 更 进一步 ， 探 索 一 些 更 复杂 的 序列 学 习 任 务 。 这 些 任 务 不 仅 限 于 预测 一 
个 数值 或 类 别 。 具 体 而 言 ， 我 们 将 探索 序列 到 序列 任务 ， 其 目标 是 根据 输入 序列 预测 输出 序列 。 







































































Q@ 可 以 在 本 章 末 尾 的 练习 (1) 中 验证 这 一 点 。 
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我 们 将 用 一 个 示例 来 诠释 如 何 用 一 种 新 的 模型 架构 注意 力 机 制 ( attention mechanism ) 一 一 
来 解决 基本 的 序列 到 序列 问题 。 这 种 模型 架构 在 基于 深度 学 习 的 上 自然 语言 处 理 领域 正在 变 得 越发 
重要 。 

通过 本 章 的 学 习 , 你 将 损 悉 深度 学 习 中 序列 数据 的 常用 类 型 ,同时 还 会 了 解 如 何 用 TensorFlowjs 
编写 基本 的 RNN、1D convnet 或 注音 力 网 络 来 解决 涉及 序列 数据 的 机 此 学 习 问 题 。 

本 章 中 将 遇 到 的 层 和 模型 会 比 本 书 中 其 他 部 分 所 展示 的 更 复杂 。 这 是 为 处 理 序 列 学 习 任 务 而 
增加 模型 容量 所 付出 的 代价 。 对 于 部 分 层 和 模型 概念 而 言 ， 可 能 很 难 在 初次 读 时 就 掌握 其 概念 。 
但 我 们 会 以 尽 可 能 直观 的 方式 来 介绍 它们 ， 比 如 使 用 示意 图 和 伪 人 代码。 如果 你 确实 觉得 有 些 概 念 
很 难 理解 ， 可 以 试 着 在 示例 代码 的 基础 上 进行 实验 ， 并 尝试 解答 本 草 末 尾 的 练习 古 。 就 我 们 上 自 号 
的 经 验 而 言 ， 实 战 能 够 助 我 们 更 好 地 内 化 本 章 中 介绍 的 这 些 复 洒 概念 和 架构 。 
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第 8 草 中 构建 的 气温 预测 模型 舍 寞 了 数据 中 的 顺序 信息 。 丁 中 将 讲解 其 中 的 原因 ， 以 及 如 
何 用 RNN 模型 找 回 这 些 信息 。RNN 醒 型 能 带 助 我 们 在 气温 预测 任务 上 达到 更 高 的 准确 座 。 


9.1.1 为 何 密集 层 无 法 为 序列 中 的 顺序 信息 建 模 


考虑 到 第 8 昔 中 已 经 详细 描述 过 耶 拿 气象 数据 集 , 此 处 只 简要 介绍 该 数据 集 和 相关 的 机 融 学 
习 任 务 。 我 们 的 任务 是 预测 某 个 时 间 点 之 后 24 小 时 内 的 气温 变化 。 预 测 依 据 来 自 该 时 间 点 前 10 
天 中 ， 从 14 个 气象 观测 设备 收集 的 气象 指标 读数 ( 包括 气温 、 气 压 和 风速 等 )。 在原 数据 集中 ， 
10 分 钟 就 会 记录 一 次 这 些 指标 的 读数 ， 但 我 们 会 对 其 进行 6 倍 的 降 采 样 ， 使 数据 间 的 间隔 变 
为 1 小时。 这 是 为 了 使 模型 的 大 小 和 训练 耗 时 更 容易 掌控 。 因 此， 每 个 训练 样 例 特征 张 量 的 形状 
为 [240，14]， 其 中 240 是 10 天 中 采样 的 时 间 点 数量 ，14 是 不 同 气 象 观测 设备 的 读数 数量 。 

第 8 章 中 ， 我 们 尝试 对 该 任务 使 用 线性 回归 模型 和 MLP 模型 。 在 这 些 解决 方案 中 ， 我 们 利 
用 tf.1layers.flatten 层 把 二 维 输入 特征 扁平 化 为 一 维 的 (参见 代码 清单 8-2 和 图 8-2 )。 这 个 
扁平 化 步 又 是 必要 的 , 因为 两 种 模型 都 是 使 用 密集 层 来 处 理 输入 数据 的 。 密集 层 要 求 输入 数据 中 
的 每 个 样 例 都 必须 是 一 维 的 。 这 意味 着 所 有 采样 时 间 点 的 数据 会 混在 一 起 ,因而 抹 除 了 采样 的 时 
间 顺 序 信息 ， 如 哪个 数据 点 在 前 、 哪 个 数据 点 在 后 、 哪 些 数据 点 相 邻 、 两 个 数据 点 间隔 多 远 等 。 
换言之 ,将 形状 为 [240，14] 的 二 维 张 量 局 平 化 成 形状 为 [3360] 的 一 维 张 量 前 ，240 个 数据 点 
的 排序 并 不 重要 , 只 要 训练 和 测试 阶段 的 做 法 是 一 样 的 就 行 。 你 可 以 在 本 章 末 尾 的 练习 (1) 中 验证 
这 一 点 。 但 理论 上 还 可 以 用 以 下 方式 理解 ， 为 什么 模型 对 数据 点 的 顺序 不 敏感 。 密 集 层 的 核心 是 
一 组 线性 方程 。 其 中 每 一 个 方程 会 将 每 个 输入 特征 值 [xi, x2, …, x4] 习 上 一 个 可 调 的 、 来 目 核 的 系 
数 [有 ,如 ,…, 所 ]《 见 公式 (9.1) ): 






































= 石村 后: 六 十 十 所 (9.1) 
图 9-1 展示 了 密集 层 工作 原理 的 示意 图 。 从 图 中 可 以 看 出 ， 从 输入 元 素 到 层 输出 的 路 径 之 间 
是 相互 对 称 的 。 这 点 和 公式 (9.1) 中 展示 的 数学 上 的 对 称 性 是 一 臻 的。 这 种 对 称 性 在 处 理 序 列 数 据 
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时 是 不 好 的 ， 因 为 它 会 使 模型 无 法 感知 元 素 间 的 顺序 。 


密集 层 





图 9-1 密集 层 的 内 部 架构 。 密 集 层 对 每 个 输入 做 的 乘法 和 加 法 运算 是 对 称 的 。 这 点 和 simpleRNN 
层 ( 见 图 9-2 ) 完全 不 同 。 后 者 的 计算 是 一 步 一 步 进 行 的 , 从 而 打破 了 这 种 对 称 性 。 注 意 ， 
此 处 假设 输入 仅 有 4 个 元 素 ， 并 且 为 简化 示意 图 而 省 略 了 侦 差 项 。 此 外 ， 图 中 仅 展示 了 
密集 层 单个 输出 单元 的 相关 运算 。 其 他 相关 的 单元 运算 用 育 景 中 层 三 的 边框 表示 


事实 上 , 还 有 一 种 非常 人 窗 单 的 方法 来 展示 , 之 前 采用 的 基于 密集 层 的 生 略 (正则 化 版 的 MLP ) 
不 是 气温 预测 问题 的 理想 解决 方案 。 这 个 方法 怠 是 将 之 前 模型 的 准确 率 和 一 个 稼 识 性 的 、 非 机 天 
学 习 委 略 得 到 的 准确 率 进 行 比较 。 

此 处 所 说 的 第 识 性 条 上 略 是 什么 ?就 是 下 接 将 输入 特征 中 的 上 一 次 气温 读数 作为 预测 输出 。 换 
言 之 ， 这 相当 于 假设 距 现在 24 小 时 后 的 气温 就 是 当前 的 气温 ! 这 个 策略 在 直 党 上 是 有 道理 的 ， 
为 我 们 根据 日 党 经 验 , 知道 明天 某 一 时 刻 的 气温 很 可 能 会 和 今天 同一 时 刻 的 气温 接近 。 这 个 算 
法 相当 简单 ， 其 结果 也 算 合 理 ， 至 少 比 其 他 简单 算法 〈 例 如 将 48 小 时 前 的 气温 作为 预测 结果 ) 
要 好 。 

我 们 曾 在 第 8 半 中 使 用 过 区 S-examples 代码 仓库 中 jena-weather 文件 夹 下 的 代码 。 该 代码 包 
含 一 个 可 用 于 评估 上 述 这 种 常识 性 策略 准确 率 的 命令 。 

git clone https://github.com/tensorflow/tfjs-examples.git 

cd tfjs-examples/jena-weather 















































yarn 
yarn train-rnn --modelType baseline 


yarn train-rnn 命令 会 调用 train-rnn.js 脚本 ， 并 在 Node.]S 环境 中 进行 计算 。” 我 们 之 后 
探索 RNN 时 ， 还 会 回顾 这 种 策略 。 运 行 上 述 命 令 后 ， 会 在 屏幕 上 得 到 以 下 输出 。 


Commonsense baseline mean absolute error: 0.290331 





G) 实现 这 种 浓 识 性 、 非 机 需 学 习 策 略 的 代码 位 于 名 为 get BaselineMeanAbsoluteError() 的 也 数 中 。 该 函数 位 于 
jena-weather/models.js 文件 里 。 它 会 使 用 Dataset 对 象 的 forEachAsync() 方 法 遍历 所 有 验证 集 子 集 的 批 次 , 计 
算出 每 个 批 次 的 MAE 损失。 最 后 对 所 有 的 损失 求 和 ， 得 到 最 终 损失 。 
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如 上 所 示 ， 简 单 的 韭 机 器 学 习 策 略 得 到 的 MAE 损失 约 为 0.29 ( 标准 化 后 的 值 )。 该 结果 和 
第 8 章 MLP 模型 得 到 的 最 佳 结 果 ( 见 图 8-4 ) 大 致 相等 ， 甚 至 还 要 稍微 好 一 点 。 换 言 之 ，MLP 
模型 ， 无 论 有 没有 使 用 正则 化 ,在 ee 能 稳 操 胜 券 。 

机 融 学 习 中 并 不 罕见 。 机 融 学 习 模型 要 下 些 功 夫 才能 打败 常识 性 策略 。 有 时 ,机 
器 学 习 模 型 只 有 i 做 到 这 一 点 。 同 时 ， 这 一 现象 也 证 明了 ， 面 对 
机 器 学 习 问 题 时 , 用 非 机 需 学 习 算 法 得 到 的 性 能 创建 一 个 比较 基准 有 多 人 么 重要 。 我 们 肯定 不 会 硕 
望 浪费 时 间 构 建 一 个 连 基 准 都 无 法 超过 的 机 需 学 习 算法 , 毕竟 基准 策略 要 人 简单 得 多 ， 而 且 算 力 消 
耗 还 更 小 ! 那么 , 我 们 能 和 否 打败 气温 预测 问题 中 的 基准 呢 ? 答案 是 肯定 的 , 这 要 靠 RNN 来 做 到 。 
接 下 来 看 看 RNN 是 如 何 捕 捉 到 并 处 理 序 列 中 的 顺序 的 。 


9.1.2 RNN 层 如 何 为 序列 中 的 顺序 建 模 


图 9-2a 用 一 个 简单 的 、4 个 元 素 组 成 的 序列 展示 了 一 个 RNN 层 的 内 部 结构 。RNN 层 有 几 种 
不 同 的 变种 ， 此 处 展示 的 是 其 中 最 简单 的 一 种 。 这 种 RNN 层 通 稼 叫 作 simpleRNN 层 。 它 可 以 通 
过 TensorFlow.]S 的 tf.1avers.simpLeRNN() 工 厂 困 数 获 得 。 本 章 后 续 部 分 将 讨论 RNN 更 复杂 
的 变种 ， 但 目前 我 们 关注 simpleRNN 层 。 

a. SimpleRNN 层 : 展开 表示 
了 


b. SimpleRNN 层 : 循环 表示 
时 间 


“CO Wd -Cn 


图 9-2 simpleRNN 层 内 部 结构 的 “展开 ”( unrolled ) 表示 (图 9-2a ) 和 “循环 ”(rolled ) 表 
示 (图 9-2b )。 图 9-2a 和 图 9-2b 表示 的 是 同一 个 算法 ,但 后 者 用 更 简洁 的 方式 展示 了 
simpleRNN 层 是 如 何 处 理 序 列 数 据 的 。 在 循环 表示 中 ， 从 输出 (>) 引出 的 连接 又 重新 
回 到 模型 中 ， 这 就 是 为 何 这 样 的 层 被 叫 作 循环 的 (recurrent )。 如 图 9-1 所 示 ， 我 们 仅 
展示 了 该 层 的 4 个 输入 元 素 ， 并 为 了 人 简化 表示 而 省 略 了 偏差 项 
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该 示意 图 展示 了 输入 中 不 同时 间 切 片 的 数据 点 (cu xo, za ……) 是 如 何 被 逐步 处 理 的 。 在 每 一 步 
中 , 疙 会 被 一 个 因数 (7JO ) 人 处理。 示意 图 用 中 间 的 长 方形 盒子 来 表示 该 限 数 。 由 此 得 到 的 输出 (y;) 
会 和 输入 中 的 下 一 个 数据 点 (xl ) 结合 ， 并 作为 输入 在 下 一 步 中 传人 £()。 值 得 注意 的 是 ， 尺 
管 示意 图 展示 了 4 个 分 开 的 例子， 而且 每 个 都 标 有 吗 数 定义 ,但 它们 其 实 表示 的 是 同一 个 水 数 。 
在 RNN 层 中 ， 这 个 也 数 (有 0 ) 叫 作 层 的 元 胞 (cell )。 它 会 在 RNN 层 的 迭代 中 被 调用 。 因 此 ， 可 
以 将 RNN 层 看 作 “ 包 于 在 for 循环 中 的 元 胞 ”。™ 
通过 比较 simpleRNN 层 的 结构 和 密集 层 的 结构 ( 见 图 9-1 ), 可 以 看 出 它们 的 两 个 关键 区 别 。 
口 simpleRNN 层 每 次 只 处 理 一 个 输入 元 率 ( 即 采样 点 ) 这 体现 了 输入 是 序列 数据 这 一 本 质 。 
密集 层 无 法 以 这 种 方式 处 理 数据 。 
口 在 simpleRNN 层 中 ， 每 个 输入 中 的 每 个 末 样 点 经 过 处 理会 得 到 一 个 输出 (y;)。 醒 一 个 采 
样 点 的 输出 (比如 yi ) 会 在 该 层 处 理 下 一 个 采样 点 (比如 x ) 时 用 到 。 这 正 是 RNN 中 “ 御 
环 ”( reccurent ) 一 词 的 来 源 ， 因 为 上 个 采样 点 的 输出 会 流 回 到 该 屋 ， 成 为 后 续 采 样 点 的 
输入 。 律 环 不 会 发 生 在 dense 、conv2d、maxPooling2d 等 层 类 型 中 。 这 些 层 的 输出 信息 不 
会 回流 ， 因 此 它们 叫 作 前 馈 层 ( feedforward layer )。 
因为 上 述 这 些 独 有 的 特征 ， 所 以 simpleRNN 层 能 够 打破 输入 元 系 间 的 对 称 性 ， 并 能 感知 到 
输入 元 系 间 的 顺序 关系 。 如 有 果 对 输入 序列 中 的 元 系 重 新 排序 ， 输 出 也 会 随 之 改变 。 这 就 是 
simpleRNN 和 和 密集 层 的 不 同 之 处 。 
图 9-2b 是 对 simpleRNN 层 更 抽象 的 表示 ， 通 和 常 叫 作 RNN 的 循环 (rolled ) 表示 ， 这 是 因为 
它 将 所 有 的 采样 点 都 包 下 在 一 个 循环 中 。 图 9-2a 则 叫 作 展 开 (unrolled ) 表示 。 和 循环 表示 恰好 能 
和 编程 语言 中 的 for 循环 对 应 上 。 这 也 正 是 simpleRNN 层 和 TensorFlow.js 中 其 他 RNN 变种 背后 
的 实现 方式 。 但 是 ,与 其 在 此 展示 硼 后 的 真实 代码 ， 不 如 先 看 看 代码 清单 9-1 中 更 为 简短 的 伪 代 
人 码 。 你 可 以 将 它 看 作对 图 9-2 中 simpleRNN 层 架 构 的 实现 ， 这 有 助 于 理解 RNN 层 的 工作 原理 的 
本 质 。 


代码 清单 9-1 simpleRNN 层 内 部 算法 的 伪 代 三 


y = 
fo in input_segquence: 
y f(dot (W, x) + dot (U, y)) x 对 应 于 图 9-2 中 的 x。 该 for 循环 
会 遍历 输入 序列 中 的 所 有 采样 点 
y 对 应 于 图 9-2 中 的 y。 该 状态 
为 会 被 初始 化 为 零 w 和 分 别 是 输入 和 状态 (也 就 是 将 回流 并 成 为 
新 循环 输入 的 当前 采样 点 输出 )。 这 也 是 采样 点 
i 的 输出 成 为 采样 点 i+1 的 状态 〈 即 循环 输入 ) 
的 地 方 
如 代码 清单 9-1 所 示 ， 采 样 点 i 的 输出 会 成 为 (下 个 迭代 中 ) 下 个 采样 点 的 “状态 ”"。 对 于 
RNN 而 言 ， 状 态 ( state ) 是 个 重要 的 概念 。 状 态 是 RNN 层 能 “ 记 住 ” 它 曾 见 过 的 输入 序列 中 的 
采样 点 的 关键 所 在 。 在 for 循环 中 ， 这 个 记忆 状态 会 和 未 来 输入 的 采样 点 结合 ， 成 为 新 的 记忆 
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GD 引 自 Eugene Brevdo 的 名 言 。 
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状态 。 这 赋予 了 simpleRNN 层 根据 之 前 见 过 的 序列 中 的 元 素 ， 对 相同 输入 元 素 做 出 不 同 反 应 的 
能 力 。 这 种 基于 记忆 的 对 输入 元 系 的 敏感 性 是 处 理 序 列 数据 的 关键 。 举 个 简单 的 例子 ,假设 当前 
的 目标 是 解码 瑞 尔 斯 编码 ( 由 点 和 划 组 成 )。 某 一 划 的 含义 会 取决 于 其 之 前 ( 和 之 后 ) 的 点 和 划 
组 成 的 序列 。 再 举 一 个 例子 ， 在 瑞 语 中 ， 取 决 于 其 之 前 ( 和 之 后 ) 的 词语 是 什么 ，last 一 词 的 含 
义 也 可 能 会 完全 不 同 。 

simpleRNN 名副其实， 因为 其 输出 和 状态 是 同一 个 东西 。 稍 后 , 我们 将 探索 一 些 更 复杂 有 日 更 
强大 的 RNN 架构 。 其 中 有 些 架 构 将 输出 和 状态 区 别 对 待 ， 还 有 些 架 构 其 至 有 多 个 状态 。 

RNN 的 另 一 个 值得 注意 的 特点 是 ,foz 循环 使 RNN 可 以 处 理由 任意 数量 采样 点 构成 的 输入 
序列 。 单 靠 肩 平 化 输入 序列 再 将 其 传人 密集 层 无 法 做 到 这 一 点 ,因为 密集 层 的 输入 形状 是 固定 的 。 

另外 ，for 循环 体现 了 RNN 的 另 一 个 重要 特性 ， 即 参数 共享 ( parameter sharing )。 它 是 指 
所 有 的 采样 点 使 用 的 是 相同 的 权重 参数 (WwW 和 T )。 另 一 个 选择 是 对 于 每 个 采样 点 ， 使 用 不 同 的 W 
和 TU 值 。 这 是 不 可 取 的 , 因为 这 会 限制 RNN 能 处 理 的 采样 点 数量 , 并 且 会 导致 可 调 人 参数 的 激增 ， 
从 而 增加 计算 量 和 训练 时 过 拟 合 的 可 能 性 。 就 这 一 点 而 言 ，RNN 层 和 convnet 中 的 conv2d 层 类 
似 。 这 是 因为 ,尽管 它们 的 实现 方式 不 同 , 但 是 它们 都 利用 参数 共享 实现 高 效 的 计算 并 避免 过 拟 
合 。conv2d 层 利 用 空间 维度 的 平移 不 变性 ， 而 RNN 层 则 利用 时 间 维 度 的 平移 不 变性 。 

图 9-2 展示 了 推断 阶段 ( 即 正 癌 传播 时 ) simpleRNN 层 内 发 生 的 事情 。 它 并 没有 展示 权重 参 
数 (CW 和 TU) 在 训练 阶段 是 如 何 更 新 的 ( 即 反 回 传 播 过 程 )。 然 而 ，RNN 的 训练 所 还 循 的 规则 和 
2.2.2 下 中 介绍 的 是 一 致 的 ( 见 几 2-8 )。 也 就 是 说 ， 从 损失 靖 开 妈 ， 回 湖 正 癌 传 播 中 的 运算 ， 对 
其 求 导 并 通过 它们 得 到 最 后 的 梯度 值 。 从 数学 的 角度 来 看 , 循环 网 络 中 的 反问 传播 和 前 馈 网 络 中 
的 反问 传播 基本 上 是 一 样 的。 唯一 的 区 别 在 于 RNN 层 的 反 回 传播 是 同 前 回溯 时 间 。 从 图 9-2 中 
的 展开 表示 ( 图 9-2a ) 就 可 以 看 出 这 一 点 。 这 就 是 为 何 训练 RNN 的 过 程 有 时 又 叫 作 基于 时 间 的 
反问 传播 ( backpropagation through time, BPTT )。 
























































1. simpleRNN 实战 

关于 simpleRNN 和 RNN 的 理论 就 讨论 到 这 里 。 现 在 看 一 下 如 何 创建 simpleRNN 层 , 并 将 它 
加 入 模型 对 象 中 ， 这 样 才能 获得 比 之 前 更 高 的 准确 率 。 这 一 过 程 的 代码 展示 在 代码 清单 9-2( 摘 
目 jena-weather/train-rnn.js ) 中 。 尽 管 simpleRNN 层 内 部 的 复杂 度 很 高 ， 模 型 却 相当 价 单 ， 仅 有 
两 层 。 第 一 层 是 simpleRNN， 共 有 32 个 单元 。 第 二 层 是 密集 层 ， 它 会 使 用 默认 的 线性 激活 也 数 
来 生成 连续 的 数值 作为 气温 预测 的 结果 。 注 意 ， 因 为 模型 的 第 一 层 是 RNN， 故 而 不 再 有 必要 扁 
平 化 序列 输入 (可 以 将 这 一 点 和 上 章 的 代码 清单 8-3, 即 针 对 同一 个 任务 创建 的 MLP 模型 代码 相 
比较 )。 事 实 上 ， 如 果真 的 将 扁平 化 层 放 到 simpleRNN 层 之 前 ,程序 会 报错 。 这 是 因为 在 
TensorFlow.js 中 ，RNN 层 的 输入 必须 至 少 是 三 维 的 ( 包含 批 次 维度 )。 


代码 清单 9-2 为 气温 预测 问题 创建 其 于 simpleRNN 层 的 模型 


便 编码 的 simpleRNN 层 单元 
function buildSimpleRNNModel (inputShape) { 数 , 该 数字 是 通过 手动 超 参 数 
const model = tf.sequential (); 调 优 得 到 的 ， 其 效果 还 不 错 
const rnnUnits = 32; 
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modqel.aadadq(tft.1Layers.SlimpLeRNN(({ 


units: rnnUnits, 模型 的 第 一 层 是 simpleRNN 层 。 
inputShape 没有 必要 扁平 化 形状 为 [null， 
I 240，14] 的 序列 输入 


return model,; Sa 本 、 
的 密集 层 。 它 使 用 默认 的 线性 激活 


del.add (tf.1 局 ({units: 1})); Ss 
model .a ayers.dense({units 模型 的 最 后 一 层 是 由 单个 单元 组 成 
函数 作为 回归 问题 的 输出 


可 以 使 用 下 面 的 命令 运行 基于 simpleRNN 的 模型 。 


yarn train-rnn --modelType simpleRNN --logDir /tmp/ 
Jean-weather-simpleRNN-1logs 


基于 RNN 的 模型 会 用 ts-node 模块 在 Node.js 环境 中 进行 训练 。 考 虑 到 基于 BPTT 的 RNN 
训练 会 占用 大 量 算 力 , 在 资源 有 限 的 浏览 旭 环 境 中 训练 相同 的 模型 会 非常 困难 和 缓慢 ,其 至 可 以 
说 几乎 是 不 可 能 的 。 如 果 你 已 经 有 一 个 配置 好 的 CUDA 环境 ， 可 以 给 之 前 的 命令 加 上 --gpu 选 
项 ， 从 而 进一步 加 速 训练 过 程 。 

以 上 命令 中 的 --logDir 选项 会 使 模型 训练 过 程 在 指定 的 文件 夹 记录 下 损失 值 。 随 后 可 以 用 
一 个 叫 作 TensorBoard 的 工具 加 载 记录 下 的 数据 ， 并 在 浏 览 锅 中 绘制 出 相应 的 损失 曲线 。 网 9-3 
是 TensorBoard 的 截图 。 在 JavaScript 代 码 中 ,可 以 给 tf.LayersModel .fit() 调 用 配置 一 个 特 
殊 的 回调 函数 , 并 在 该 回调 孔 数 的 参数 中 配置 之 前 指定 的 存储 损失 值 的 目录 。 至 于 这 是 如 何 做 到 
的 ， 可 以 参见 信息 栏 9-1。 























言 息 栏 9-1 使 用 TensorBoard 工具 在 Node.js 环境 中 监测 长 时 间 运 行 的 模型 训练 过 程 

第 8 章 中 介绍 过 ， 可 以 用 切 s-vis 库 提 供 的 回调 函数 在 浏览 器 中 监测 tf.LayersModel .fit() 
调用 的 执行 过 程 。 然 而 ,tfjs-vis 是 仅 适 用 于 浏览 器 的 库 , 与 Node.js 并 不 兼容 。 在 默认 情况 下 ， 
ts-node ( 或 切 S-node-gpu ) 中 的 tf.LayersModel.fit() 芯 数 会 在 终端 中 显示 拟 合 的 进度 条 、 
损失 值 和 度量 指标 值 。 尽管 这 种 展示 方式 非常 轻 量 ,并 且 提 供 的 信息 也 很 丰 写 ,但 是 基于 文本 
和 数字 的 训练 可 视 化 始终 不 那么 直观 ， 且 缺乏 视觉 冲击 力 。 相 较 而 言 ， 图 形 界面 对 于 监测 长 时 
间 运 行 的 模型 训练 过 程 要 好 得 多 例如， 在 模型 的 训练 后 期 , 我 们 通常 会 关注 在 较 长 的 训练 周 
期 中 ， 损 失 值 是 否 有 轻微 的 变化 。 要 监测 这 样 的 变化 , (使 用 恰当 的 尺度 和 坐标 的 ) 图 表 会 比 
查看 一 堆 文本 信息 容 多 得 多 。 

在 运 的 是 ，TensorBoard 工具 可 以 帮助 我 们 在 后 端 环境 中 做 到 这 点 。TensorBoard 原先 是 为 
Python 版 的 TensorFlow 设计 的 ， 但 是 tfjs-node 和 ts-node-gpu 输 出 的 数据 格式 和 TensorBoard 
需要 的 输入 格式 是 兼容 的 。 可 以 用 以 下 方法 在 tf.LayersModel.fit() 或 tf.LayersModel. 
fitDataset () 调 用 中 配置 如 何 记 录 损 失 和 度量 指标 值 。 


imOrFE * a EE from Censorflow/tijs-node'; 
人 
0 
awalt model.fit (xs, ys, { 
epochs, 
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callbacks: tf.node.tensorBoard('/path/to/my/logdir') 
人 


7 
await model.fitDataset (dataset, { 
epochs, 
batchesPerEpoch, 
callsacke: Ef .node., tensSorBoardl(' /oach/eto/ny/ loodir'") 
3 


这 些 调用 会 将 损失 值 和 所 有 在 compile() 调 用 中 配置 的 度量 指标 记录 到 /path/to/my/logdir 
文件 夹 中 。 可 以 通过 以 下 步骤 在 浏览 器 中 观察 记录 下 的 数据 。 

(1) 打开 一 个 新 的 终端 。 

(2) 用 以 下 命令 安装 TensorBoard ( 如 果 之 前 没 安装 过 的 话 ): 

pip install tensorboard 

(3) 启动 TensorBoard 的 服务 器 ,并 将 日 志 目 录 配 置 成 之 前 回调 函数 创建 时 配置 的 目录 文件 夹 : 

tensorboard --logdir /path/to/my/logdir 

(4) 在 浏览 器 中 ， 前 往 TensorBoard 启动 后 在 终端 中 展示 的 以 "http:/"' 开 头 的 URL。 随 后 ， 
损失 和 度量 指标 的 图 表 就 会 显示 在 TensorBoard 漂亮 的 浏览 器 界面 中 ， 如 图 9-3 和 图 9-5 所 示 。 


0.325 一 一 -一 全 一 -一 十 罗 〇 训练 集 
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0.295 


损失 


0.285 


0.275 


0.265 


轮 次 
图 9-3 ”为 耶 拿 气温 预测 问题 构建 的 .基于 simpleRNN 层 的 模型 的 MAE 损失 曲线 。 








截图 中 展示 的 是 TensorBoard 绘制 的 图 表 。 图 表 背 后 的 数据 来 自 该 模型 在 
Node.js 训练 环境 中 训练 产生 的 日 志 


代码 清单 9-2 生成 的 关于 simpleRNN 模型 的 文本 概述 如 下 所 示 。 


Layer (type) Output shape Param t# 





simple rnn SimpleRNN]1 (Simpl [null,32] 1504 
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dense Densel (Dense) [null,1] 33 








Total params: 1537 
Trainable params: 1537 
Non-trainable params: 0 


它 的 权重 参数 要 比 之 前 用 过 的 MLP 模型 少 得 多 ( simpleRNN 模型 为 1537 个 ，MLP 模型 为 
107$8$ 个 ， 后 者 数量 几乎 是 前 者 的 70 倍 ) 然而 , 在 训练 过 程 中 , 它 在 验证 集 上 的 MAE 损失 值 
( 约 为 0.27 ) 却 比 MLP 模型 的 损失 值 ( 约 为 0.29 ) 还 低 (也 就 是 说 预测 准确 率 更 高 )。 这 一 气温 
预测 误差 的 减少 虽 小 , 却 是 实 实在 在 的 。 它 凸显 了 基于 时 间 维 度 的 平移 不 变性 的 参数 共享 的 威力 。 
同时 ， 这 也 体现 了 RNN 学 习气 象 数据 这 样 的 序列 数据 的 优势 。 

你 可 能 已 经 注意 到 ， 尽 管 simpleRNN 的 权重 参数 相对 较 少 ， 它 的 训练 和 推断 过 程 科 MLP 这 
样 的 前 馈 模 型 相 比 却 滥 长 得 多 。 这 是 RNN 的 一 大 软肋 ， 因 为 不 可 能 并 行 化 其 针对 每 个 采样 点 的 
运算 。 这 种 并 行 运算 不 可 行 ， 因 为 后 续 运 算 步 又 依赖 于 之 前 步骤 中 算出 的 状态 值 (参见 图 9-2 和 
代码 清单 9-1 中 的 伪 代 码 )。 如 果 使 用 大 O 记 法 (Big-Onotation ) 来 表示 计算 的 复杂 度 ，RNN 下 
问 传 播 的 时 间 复 杂 度 为 O(n)， 其 中 是 输入 的 采样 点 数量 。 反 癌 传 播 ( BPTT ) 会 再 耗费 O(n) 的 
时 间 复 杂 度 。 耶 拿 气 温 预 测 问题 的 输入 特征 由 大 量 的 采样 点 ( 共 240 个 ) 组 成 。 这 是 导致 之 前 所 
见 的 漫长 训练 周期 的 原因 ， 也 是 在 Node.js 环境 中 而 不 是 浏览 器 中 训练 模型 的 主要 原因 。 

像 dense 和 conv2d 这 样 的 前 僻 屋 和 RNN 层 的 情况 不 同 。 在 这 些 层 中 ， 各 输入 元 双 的 运算 可 
以 是 并 行进 行 的 ， 因 为 每 个 元 素 的 运算 结果 之 间 互 无 依赖 。 这 一 特点 使 前 乌 层 可 以 在 GPU 加 速 
的 帮助 下 ， 在 O(n) 的 时 间 复 杂 度 内 (有 时 甚至 是 在 0(1) 的 时 间 复 杂 度 内 ) 完成 正 问 传播 和 反问 
传播 。 在 9.2 市 中 ， 我们 将 探索 男 外 一 些 适用 于 并 行 计算 的 、 针 对 序列 数据 的 建 模 方 法 ， 例 如 一 
维 卷 积 。 然 而， 熟悉 RNN 仍 是 相当 重要 的 ， 因 为 一 维 卷 积 不 具备 它们 对 序列 数据 中 元 素 位 置 的 
敏感 度 (之 后 会 详解 )。 


2. 一 种 更 高 级 的 RNN 类 型 : 门 控 循环 单元 

simpleRNN 不 是 TensorFlow.js 中 唯一 的 循环 层 类 型 。 还 有 其 他 两 种 : 门 控 循环 单元 ( gated 
recurrent unit, GRU”) 和 长 短期 记忆 (1long short-term memory LSTM2 )。 在 绝 大 部 分 实用 场景 中 ， 
一 般 会 使 用 这 两 种 更 高 级 的 RNN。simpleRNN 对 于 绝 大 部 分 实际 问题 而 言 过 于 人 简单， 尽管 它 需 
要 的 算 力 要 小 得 多 ， 并 且 其 内 部 机 制 也 更 容易 理解 得 多 。 此 外 ，simpleRNN 还 有 一 个 关键 软肋 : 
尽管 理论 上 ，simpleRNN 可 以 保存 模型 在 时 间 :之 前 见 过 的 众多 采样 点 的 输入 信息 ， 但 在 实际 应 
用 中 ， 模 型 很 难 学 习 这 种 长 时 间 跨 度 中 的 依赖 关系 。 

这 也 是 由 梯度 消失 问题 ( vanishing-gradient problem ) 导 人 有致 的 。 这 一 问题 和 层 数 过 多 的 前 人 馈 网 
络 中 观察 到 的 现象 类 似 : 随 肴 网 络 层 数 的 增加 ,从 损失 端 反 回 传播 回 较 浅 层 的 梯度 尺 二 会 越 来 越 
























































中 参见 Kyunghyun Cho 等 人 于 2014 年 抽 写 的 文章 “Learning Phrase Representations using RNN Encoder-Decoder for 
Statistical Machine Translation 。 

@) 参见 Sepp Hochreiter 和 Jurgen Schmidhuber 的 文章 “Long Short-Term Memory”, 刊载 于 Neural Computation, 1997 
年 第 9 卷 第 8 期 ， 第 1735~1780 页 。 
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小 。 因 此 ， 权 重 更 新 的 幅度 也 变 得 越 来 越 小 ， 直 到 网 络 变 得 完全 无 法 训练 。 对 于 RNN 而 言 ， 大 
量 的 采样 点 就 相当 于 上 述 问题 中 过 多 的 层 。GRU 和 LSTM 的 设计 初衷 正 是 为 了 解决 这 一 梯度 消 
失 问 题 。GRU 是 这 两 种 RNN 中 较 人 简单 的 一 种 ， 所 以 让 我 们 先 来 看 看 它 是 如 何 应 对 这 一 问题 的 。 

和 simpleRNN 相 比 ，GRU 的 内 部 结构 更 为 复杂 。 图 9-4 展示 了 GRU 内 部 结构 的 循环 表示 。 
和 simpleRNN 的 循环 表示 ( 参见 图 9-2b ) 相 比 ， 它 的 内 容 要 更 为 丰富 。 其 中 的 输入 (x ) 和 输出 / 
状态 (在 RNN 相关 文献 中 通常 叫 作 hh) 会 经 过 4 个 方程 的 运算 ， 最终 得 到 新 的 输出 /状态 。 与 此 
相 比 ，simpleRNN 中 仅 有 1 个 方程 。 这 种 复杂 度 也 体现 在 代码 清单 9-3 中 的 伪 代 码 中 。 可 以 将 这 
段 代 码 看 作 图 9-4 中 算法 的 实现 。 为 了 简化 问题 ， 伪 代码 中 省 略 择 了 侦 差 项 。 

















GRU 层 : 展开 表示 








图 9-4 GRU 元 胞 的 循环 表示 。 这 种 RNN 层 类 型 比 simpleRNN 层 要 更 为 复杂 和 强大 。 
此 处 的 循环 表示 对 标 图 9-2b。 注 意 ， 此 处 为 了 简化 问题 ,省略 掉 了 方程 的 偏差 
项 。 虚 线 表示 GRU 元 胞 的 输出 会 在 后 续 采 样 点 中 国 僻 到 同一 个 元 胞 中 





代码 清单 9-3 ”GRU 层 的 伪 代 码 


h = 0 

for x 1 in input_ sequence: 
z = Sigmoid(dot (W z, x) + dot(U z, h)) < 一 一 一 一 z 岂 作 更 新 门 
r = sigmoid(dot (W_ r, x) + dot(W r, h)) < 一 一 一 一 r 岂 作 重 置 门 


h_prime 是 当前 状态 


h = dot(1 - z, h) + dot(z, h prime) 
的 临时 状态 


该 for 循环 会 现 历 输入 
序列 中 的 所 有 采样 点 


h prime = tanh(dot (W, x) + dot(r, dot(U, h))) 硬 


h_prime 〈 当 前 状态 的 临时 状态 ) 


该 变量 对 应 于 图 9-4 中 的 h。 就 和 simpleRNN 和 h (之 前 的 状态 ) 会 以 加 权 的 方 
一 样 ， 该 状态 会 初始 化 为 零 式 加 到 一 起 ， 形 成 新 状态 


下 面 是 GRU 所 有 内 部 细节 中 最 重要 的 两 个 。 

(1) GRU 使 捕捉 多 个 采样 点 间 的 信息 变 得 容易 。 这 是 由 中 间 量 z 实现 的 ， 它 通常 义 叫 作 更 新 门 
( update gate )。 得 益 于 更 新 门 ，GRU 可 以 学 习 在 多 个 采样 点 保持 几乎 相同 的 状态 ， 只 需 做 出 最 低 限 
度 的 改变 即 可 。 具 体 而 言 ， 在 方程 (1 -2z):h+z:h' 中 ， 如 果 z 的 值 为 0， 那 么 状态 hh 会 被 原封 不 动 
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地 从 当前 采样 点 复制 到 下 一 个 采样 点 。 这 种 完整 的 状态 传递 能 力 是 GRU 能 够 应 对 梯度 消失 问题 的 
一 个 重要 原因 。 重 置 门 z 是 输入 状态 x 和 当前 状态 有 的 线性 方程 与 sigmoid 非 线 性 函数 的 结合 。 

(2) 除了 更 新 门 z 之 外 ，GRU 中 的 另 一 个 “ 门 ” 是 >， 叫 作 重 置 门 ( reset gate )。 和 更 新 门 z 
类 似 , 也 是 在 输入 状态 和 当前 状态 线性 组 合 的 基础 上 ， 加 上 sigmoid 非 线 性 函数 。 重 置 门 负 责 
控制 要 “忘掉 ”多 少 当前 状态 。 具 体 而 言 ， 在 方程 tanh( 丈 .x+r: 忆 :有 中 ， 如 果 7 值 变 为 零 ， 那 
么 天 的 作用 就 被 抹 去 了 。 如 果 下 游 的 方程 中 的 (1 - z) 项 也 接近 于 零 ， 那 么 当前 状态 h 对 下 一 状态 
的 影响 也 会 被 最 小 化 。 因 此 , 在 > 和 = 的 共同 作用 下 ，GRTU 会 根据 实际 场景 ,学 会 忘 挥 部 分 或 全 
部 历史 信息 。 例 如 ， 假 设 我 们 的 目标 是 对 影评 进行 正面 评价 和 负面 评价 分 类 , 那么 有 可 能 一 个 影 
评 的 开头 会 说 “这 个 电影 还 不 错 ”, 但 中 途 话 锋 一 转 , “然而,， 它 不 如 其 他 基于 同类 概念 的 电影 ”。 
在 这 种 情况 下 , 模型 基本 可 以 忘掉 前 半 部 分 的 洪 美 之 词 , 因为 真正 决定 对 该 影评 情感 分 析 结 论 的 
应 该 是 它 的 后 半 部 分 。 

以 上 就 是 对 GRU 工作 原理 的 粗略 概括 。 需 要 记 住 的 重点 是 ，GRU 的 内 部 结构 使 RNN 可 以 
学 习 何 时 应 该 记忆 旧 状 态 ， 以 及 何 时 应 该 用 输入 更 新 状态 。 这 种 学 习 方 式 是 通过 更 新 可 调 权 重 
太 、U、W、U、 玉 和 U (以 及 之 前 忽略 的 偏差 项 ) 实现 的 。 

如 果 你 暂时 还 没 弄 懂 全 部 细节 ， 不 必 担 心 。 总 体 来 说 ， 上 文中 对 GRU 工作 原理 的 粗略 概括 
并 不 是 那么 重要 。 人 类 工程 师 没 有 必要 和 弄 懂 GRU 处 理 序列 数据 方式 的 所 有 细节 。 这 就 和 没有 必 
要 深究 convnet 如 何 将 图 像 输 入 转换 成 不 同类 别 的 概率 输出 一 样 。 输 入 RNN 的 结构 化 数据 会 勾 
勒 出 模型 的 假设 空间 , 然后 神经 网 络 会 自动 通过 由 数据 驱动 的 训练 流程 在 假设 空间 中 找 出 处 理 序 
列 数据 所 需 的 细节 。 

为 了 将 GRU 层 应 用 到 和 气温 预测 问题 上 , 我 们 创建 了 一 个 包含 单个 GRU 层 的 TensorFlow.js 
模型 ( 见 代码 清单 9-4 )。 此 处 使 用 的 代码 (摘自 jena-weather/train-rnn.js ) 和 之 前 为 simpleRNN 
模型 编写 的 代码 ( 见 代码 清单 9-2 ) 几乎 完全 一 样 。 唯 一 不 同 的 是 模型 第 一 层 的 类 型 ( 此 处 为 
GRU， 之 前 是 simpleRNN )。 


代码 清单 9-4 “为 耶 拿 气温 预测 问题 创建 基于 GRU 层 的 模型 
function buildGRUModel | { 硬 编 码 的 RNN 层 的 单元 数 。 该 数字 是 通过 


















































ee 手动 超 参数 调 优 得 到 的 ， 其 效果 还 不 错 
Const rnnUnits = 32; 


model.add (tf.layers.grul(t 
units: rnnUnits, 模型 的 第 一 层 
inputShape 是 GRU 层 


})); 


model.add(tf.layers.dense({units: 1})); 模型 的 最 后 一 层 是 由 单个 单元 组 
3 | 成 的 密集 层 。 它 使 用 默认 的 线性 

激活 函数 作为 回归 问题 的 输出 
用 以 下 命令 启动 GRU 版 模型 基于 耶 拿 气象 数据 集 的 训练 。 


yarn train-rnn --modelType gru 


图 9-5 展示 了 GRU 版 模型 的 训练 损失 曲线 和 验证 损失 曲线 。 验 证 误差 的 最 低 值 约 为 0.266， 
打败 了 上 一 下 中 simpleRNN 模型 的 验证 误差 ( 约 为 0.27 )。 这 意味 着 GRU 相 较 simpleRNN 而 言 ， 
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在 学 习 序 列 数据 的 模式 上 有 更 大 的 容量 。 气象 数据 集中 的 序列 数据 的 确 缠 含 着 一 些 能 够 提升 气温 
预测 准确 率 的 模式 ，GRU 能 够 识别 出 这 些 simpleRNN 无 法 识别 的 信息 。 然 而 ， 天 下 没有 免费 的 
午餐 。 这 么 做 的 代价 是 训练 所 需 的 时 间 。 例 如 ， 在 我 们 的 某 台 机 器 上 ，GRU 的 训练 速度 为 3000 
毫秒 / 批 次 ， 而 simpleRNN 却 能 达到 950 毫秒 / 批 次 。" 但 是 ， 如 果 目 标 是 尽 可 能 准确 地 预测 气温 ， 
那么 这 种 代价 绝对 是 值得 的 。 











图 〇 训练 集 





〇 验证 集 
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图 9-5 针对 气温 预测 问题 训练 GRU 版 模型 得 到 的 损失 曲线 。 和 simpleRNN 模型 的 损失 
曲线 ( 见 图 9-3 ) 相 比 ，GRU 版 模型 的 最 佳 验证 损失 变化 不 大 ， 但 确实 下 降 了 
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刚刚 讨论 的 气温 预测 问题 主要 是 针对 数值 组 成 的 序列 数据 。 但 是 现实 生活 中 真正 无 处 不 在 的 
序列 数据 类 型 其 实 不 是 数字 ， 而 是 文本 。 在 像 英 霹 这 样 基 于 字母 的 霹 言 中 ,可 以 将 文本 看 作 字 符 
序列 或 单词 序列 。 这 两 种 视角 ,或 者 说 策略， 适用 于 不 同 的 问题 。 本 市 将 在 不 同 的 任务 中 用 到 这 
两 种 策略 。 
后 面 几 市 将 介绍 的 针对 文本 的 深度 学 习 模 型 可 以 实现 如 下 的 文本 处 理 任务 。 
口 对 文本 进行 情感 分 析 并 打分 ( 例如， 判断 对 产品 的 点 评 是 正面 还 是 负面 )。 
口 根据 文本 的 主题 给 文本 分 类 ( 例如， 判断 报纸 中 的 文革 属于 政治 、 金 融 、 体 育 、 医 疗 、 
天 人 气 还 是 其 他 主题 )。 

口 将 一 种 输入 的 文本 转换 为 妨 一 种 文本 ， 然 后 输出 例如， 目 动 标准 化 某 种 格式 或 者 机 带 
翻 详 )。 

口 预测 文本 的 后 续 内 容 ( 例如 ， 移 动 设备 中 输入 法 的 智能 推荐 功能 )。 
































Gd 这 些 结果 是 通过 ts-node 在 基于 CPU 的 后 端 环境 中 运行 得 到 的 。 如 果 你 选择 改 为 使 用 ts-node-gpu 和 启用 了 
CUDA 的 基于 GPU 的 后 端 ， 那 么 两 种 模型 的 训练 速度 都 能 得 到 一 定 比 例 的 提升 。 
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上 面 的 列表 只 是 文本 相关 的 机 融和 学 习 问 题 的 一 个 很 小 的 子 集 。 月 然 语言 处 理 领域 会 系统 地 人 研 
究 这 些 问 题 。 尽管 本 草 只 是 对 基于 神经 网 络 的 目 然 语言 处 理 扩 蕊 的 简单 介绍 ， 此 处 介绍 的 概念 和 
示例 却 是 后 续 探 索 的 重要 基石 (参见 9.4 市 )。 

记 住 , 本 章 介绍 的 深度 神经 网 络 中 , 没有 任何 一 个 能 像 人 类 一 样 丰 正 理解 文本 或 语言 背后 的 
含义 。 这 些 模型 只 不 过 是 将 文本 的 统计 结构 映射 到 菏 个 目标 空间 。 这 个 目标 空间 可 以 是 连续 的 情 
感 分 析 分 值 、 多 分 类 结果 或 新 的 序列 数据 。 事 实证 明 ， 这 对 于 解决 很 多 现实 中 的 文本 处 理 任务 已 
经 足够 了 了 。 基 于 座 度 学 习 的 目 然 语言 处 理 只 不 过 是 将 模 陈 识别 技巧 应 用 到 字符 和 单词 上 罢了 。 这 
和 基于 次 度 学 习 的 计算 机 视 党 〈( 见 第 4 草 ) 是 对 像素 的 模式 识别 有 措 曲 同 工 之 妙 。 

在 进一步 深入 探索 用 于 文本 的 诬 度 神经 网 络 之 前 ， 先 来 学 习 一 下 机 带 学 习 中 是 如 何 表 示 文 
本 的 。 


9.2.1 文本 在 机 器 学 习 中 的 表示 方法 : one-hot 编码 和 multi-hot 编码 


在 本 书 中 ,我们 至 此 遇 到 的 绝 大 部 分 输入 数据 是 连续 的 。 举 个 例子 , 不 同 癌 尾 花 的 花 办 长 度 
在 某 个 范围 内 的 数值 是 连续 的 。 同 理 ， 耶 拿 气象 数据 集中 , 气象 指标 的 谈 数 也 都 是 实数 。 这 些 数 
值 都 会 被 下 日 地 表示 为 浮 点 张 量 ( 即 由 浮 点 类 型 数字 组 成 的 张 量 )。 然 而 ， 文 本 与 此 不 同 ， 输 入 
的 文本 数据 通常 会 被 表示 为 字符 组 成 的 字符 串 , 或 者 说 单词 ,而 不 是 实数 。 字 和 从 和 单词 本 质 上 是 
离散 的 。 例 如 ，“j” 和 “k” 之 间 是 没有 别 的 字母 的 ， 但 在 0.13 和 0.14 之 间 存 在 无 限 个 实数 。 从 
这 个 角度 来 看 ， 字 符 、 单 词 和 多 分 类 问题 中 的 类 别 (例如 3 种 总 尾 花 亚 种 和 MobileNet 的 1000 
种 输出 类 别 ) 有 一 定 相 似 性 。 在 将 文本 数据 传人 深度 学 习 模 型 前 ， 必 须 先 将 它们 转换 为 问 量 〈 数 
值 数 组 )。 这 个 转换 过 程 叫 作文 本 向 量化 〈text vectorization )。 

有 多 种 方法 可 以 将 文本 向 量化 。 第 3 章 介 绍 过 的 one-hot 编码 是 其 中 一 种 。 在 英语 中 ， 根 据 
对 常用 词 的 定义 ， 和 常用 词 数量 可 能 会 发 生变 化 ,但 粗略 估计 约 有 10 000 多 个 帝 用 词 。 我 们 可 以 
收集 这 10 000 多 个 单词 ,得 到 一 个 单词 表 ( vocabulary )。 单词 表 中 没有 重复 的 单词 ， 且 都 按 一 定 
顺序 排列 ( 例如 ， 按 照 使 用 频率 进行 降序 排列 )。 这 样 就 可 以 给 每 个 单词 分 配 一 个 整数 作为 索引 。” 
利用 这 个 索引 ， 可 以 将 每 个 英语 单词 表示 为 长 10 000 的 向 量 。 向 量 中 只 有 和 该 索引 对 应 的 元 素 
为 1， 其 他 元 素 都 为 0。 这 整 是 单词 的 one-hot 编码 。 图 9-6a 展示 了 这 一 过 程 的 示意 图 。 

如 有 果 输 入 数据 是 句子 , 而 不 是 单词 ,又 该 怎么 办 ?可 以 先 得 到 句 中 所 有 单词 的 one-hot 问 量 ， 
随后 将 它们 组 合 起 来 ， 得 到 表示 整个 句子 的 二 维 表示 见 图 9-6b )。 这 种 策略 简单 叉 清晰 。 它 完 
美 记 录 了 句 中 原本 有 哪些 单词 ， 以 及 这 些 单词 出 现 的 顺序 。“ 然 而 ， 随 着 文本 变 长 ， 向 量 的 尺寸 
可 能 会 大 到 超出 掌控 范围 。 例 如 , 英语 中 的 句子 平均 含有 18 个 单词 。 假 设 单词 表 的 大 小 为 10 000， 














































































































GD 一 个 显而易见 的 问题 是 ， 如 果 有 一 个 生僻 词 不 在 这 10 000 多 个 单词 组 成 的 单词 表 中 , 该 怎么 办 ”这 是 任何 一 个 处 
理 文本 的 深度 学 习 算 法 都 必须 面 对 的 实际 问题 。 在 实践 中 ， 我 们 会 给 单词 表 添 加 一 个 名 为 OOV 的 特殊 项 来 解决 
这 个 问题 。OOV 的 全 称 是 超出 单词 表 范 围 ( out-of-vocabulary )。 因 此 ， 所 有 不 属于 单词 表 的 生僻 词 可 以 统一 划 入 
这 一 特殊 项 。 它 们 的 one-hot 编码 或 者 说 词 般 入 癌 量 自然 会 是 相同 的 。 一 些 更 高 级 的 技巧 会 采用 多 种 OOV 类 别 ， 
并 使 用 某 种 散 列 函数 将 生僻 词 划 入 这 些 类 别 中 。 

@) 假设 没有 OOV 词 。 
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那么 表示 一 个 句子 就 需要 180 000 个 数字 。 这 比 句子 本 身 占用 的 空间 要 多 得 多 。 这 还 没 考虑 一 些 
涉及 处 理 文本 段落 和 整 篇 文章 的 任务 。 这 些 任务 涉及 的 单词 量 要 大 得 多 , 会 导致 表示 的 尺寸 和 计 
算 量 呈 爆炸 式 增长。 





a. 单词 的 one-hot 编 码 


b. 单词 序列 的 one-hot 编 码 


i ed ri el, i 





en 
| 
-a 


一 -ER oz 
长度 








c. 序列 中 单词 的 multi-hot 表 示 


| | es | 


图 9-6 (a) 单词 的 one-hot 编码 (向 量化 ) 示意 图 。(b) 将 句子 表示 为 单词 序列 的 示意 图 。(c) 将 
图 9-6b 中 的 句子 简化 为 multi-hot 编码 后 的 示意 图 。 图 9-6c 中 的 表示 要 更 为 简洁 且 可 扩 
展 ,但 它 舍弃 了 顺序 信息 。 为 了 简化 示意 图 ， 此 处 假设 单词 表 的 尺寸 为 14。 事 实 上 ， 
深度 学 习 中 常用 英语 单词 的 单词 表 尺 寸 要 比 这 大 得 多 (一 般 在 数 千 至 上 万 这 个 量 级 ， 
例如 上 文 提 到 的 10 000 多 个 ) 

一 种 应 对 这 类 问题 的 方法 是 将 所 有 的 单词 都 放 到 一 个 辐 量 中 。 回 量 中 的 每 个 元 素 表 示 对 应 的 
单词 是 否 在 文本 中 出 现 过 。 图 9-6c 展示 的 正 是 这 种 表示 方式 。 在 这 种 表示 中 ， 问 量 的 多 个 元 到 
值 可 以 同时 为 1。 这 就 是 为 什么 人 们 有 时 将 它 称 为 multi-hot 编码 ( multi-hot encoding )。 无 论文 
本 有 多 长 ，multi-hot 编码 的 长 度 是 固定 的 ( 等 于 单词 表 的 尺寸 )。 因 此 ， 可 以 说 它 解 决 了 癌 量 尺 
才 爆 炸 性 增长 的 问题 ， 但 这 是 以 丢失 数据 中 的 顺序 信息 为 代价 的 。 也 就 是 说 multi-hot 编码 后 ， 
我 们 无 法 从 回 量 看 出 单词 的 先后 顺序 。 根 据 应 用 场景 而 定 ,， 这 种 限制 有 时 是 可 接受 的 ， 有 时 却 不 
行 。 有 一 些 更 高 级 的 表示 能 够 在 解决 回 量 尺寸 爆炸 性 增长 的 问题 的 同时 ,还 保留 单词 的 顺 友信 息 。 
本 草 的 后 续 内 容 将 进一步 探索 这 些 表 示 方 法 。 但 就 现在 而 言 ， 先 来 看 一 个 针对 文本 的 具体 机 需 学 
习 问 题 。 我 们 的 模型 将 用 multi-hot 编码 素 略 来 解决 它 ， 并 达到 一 个 还 算 不 错 的 准确 率 。 
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9.2.2 ”对 情感 分 析 问 题 的 第 一 次 尝试 


我 们 的 第 一 个 示例 将 使 用 互联 网 电影 资料 库 ( Internet Movie Database, IMDb ) 数据 集 作 为 输 
入 , 然后 用 机 器 学 习 对 其 中 的 文本 进行 处 理 。 IMDb 数据 集 共 由 约 25 000 个 文本 形式 的 影评 组 成 ， 
该 数据 集 源 目 IMDb 网 站 。 数据 集中 的 每 个 影评 都 已 按照 正面 评价 和 负面 评价 这 两 种 类 别 进行 了 
标记 。 这 意味 春 这 个 机 带 学 习 任 务 是 一 个 二 分 类 问题 ， 对 于 给 定 的 影评 ,判断 它 的 评价 是 正面 的 
还 是 负面 的 。 该 数据 集 是 平衡 的 ( 即 正面 影评 和 人 负面 影评 各 占 50% )。 就 和 常见 的 在 线 点 评 网 站 
的 情况 一 样 ， 此 处 的 点 评 样 例 的 长 度 也 是 不 同 的 。 有 的 点 评 只 有 10 个 单词 ， 而 有 的 则 长 达 2000 
多 个 单词 。 下 面 展示 了 一 个 有 代表 性 的 点 评 样 例 ， 该 样 例 的 标签 为 负面 。 男 外 ， 可 以 看 出 ， 数 据 
集中 的 数据 已 经 省 略 挥 了 标点 符号 。 






































the mother In this movie 1s reckless with her children to the polint of neglect 1 wish 1 wasn ’t 
So angry about her and her actions because 1 would have otherwise enjoyed the flick what a 
number she was take my advise and fast forward through everything you see her do until the 
end also 1s anyone else getting sick of watching movies that are filmed so dark anymore one 
can hardly see what ls being filmed as an audience we are 1mpossibly nvolved with the actions 


on the Screen so then why the hell can’t we have night vision 


数据 集 已 被 提前 划分 为 训练 集 和 测试 集 。 用 下 面 的 命令 启动 模型 的 训练 后 , 程序 会 日 动 将 两 
个 数据 集 目 动 下 载 到 本 地 的 tmp 文件 夹 中 。 


git clone https://github.com/tensorflow/tfjs-examples .git 








cd tfjs-examples/sentiment 
yarn 
yarn train multihot 


如 果 仔 细 观 察 sentiment/data.js, 会 发 现 上 述 命 令 下 载 并 读 取 的 数据 文件 中 包含 的 单词 并 不 是 
以 字符 串 的 形式 表示 的 ， 而 是 一 些 32 位 的 整数 。 尽 管 该 文件 中 加 载 数据 的 代码 并 不 是 此 处 的 重 
点 ， 但 还 是 值得 专门 指出 其 中 负责 对 句子 进行 multi-hot 编码 ( 即 向 量化 ) 的 部 分 。 代 码 清单 9-5 
中 展示 了 这 部 分 代码 。 


代码 清单 9-5 ”loadFeatures () 因数 中 对 句子 进行 multi-hot 问 量化 的 部 分 


——1i> Const buffer = tf.buffer([segquences.length, numWords|); 























sequences.forEach( (seq, 1) => { 遍历 所 有 的 样 例 ， 每 个 
SeG .forEach(wordIndeXx => { 样 例 都 是 一 个 句子 
if (wordIndeXx !== OOV_INDEX) { < 下 
buffer.set (1, i, wordIndex).; 每 个 序列 ( 即 句子 ) 
i 都 是 一 个 整数 数组 
有 只 对 没有 超出 单词 表 范 围 (OOV) 
的 单词 进行 multi-hot 向 量化 
创建 一 个 TensorBuffer 对 象 ， 而 不 是 直接 创 将 TensorBuffer 中 对 应 位 置 的 元 素 设 为 1。 注意 ， 
建 一 个 张 量 , 因为 需要 在 后 续 的 步骤 中 设置 其 中 对 于 每 个 索引 i, 可 能 有 多 个 wordIndex 位 置 的 值 被 
元 素 的 值 。 该 对 象 中 元 素 的 初始 值 芭 为 0 设 为 1。multi-hot 编码 正 是 得 名 于 此 
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经 过 multi-hot 编 合 ， 原 始 数 据 被 表示 为 形状 为 numExamples，numwords] 的 二 维 张 量 ， 
其 中 numworads 是 单词 表 的 尺寸 (此 处 为 10 000 )。 该 张 量 的 形状 和 单个 句子 的 长 度 无 关 ， 因 此 
这 是 一 种 简洁 的 回 量化 范式 。 从 数据 文件 加 载 的 预测 目标 的 形状 为 [numExamples，1] ， 其 中 正 
例 和 反例 的 标签 分 别 用 1 和 0 表示 。 

我 们 将 用 MLP 模型 处 理 multi-hot 编码 后 的 数据 。 事 实 上 , 由 于 multi-hot 编码 会 导致 数 据 中 
的 顺序 信息 丢失 ， 因 此 就 算 我 们 想 要 ， 也 无 法 使 用 RNN 模型 来 处 理 这 类 数据 。 下 一 市 中 将 讨论 
基于 RNN 的 策略 。 可 以 在 sentiment/train.js 文件 的 builgModel () 限 数 中 找到 创建 MLP 模型 的 
代码 。 代 码 清单 9-6 是 它 的 简化 版 。 


代码 清单 9-6 ”为 multi-hot 编码 的 IMDb 影评 数据 集 构建 一 个 MLP 模型 
const model = tf.segquential (); 


model.add (tf.layers.densel(t{ | 添加 两 个 隐藏 的 密集 层 , 从 而 增强 








DE 0 模型 的 表示 能 力 。 两 个 密集 层 使 用 


dC a on relu', 的 都 是 relu 激活 函数 
inputShape: [vocabularySize] < 


})); 





model add(tf. lavyveres. denset{ 1 因为 此 处 使 用 的 是 multi-hot 编码 ， 
unlits: 10; 所 以 输入 形状 就 是 单词 表 的 尺寸 
activation: 'relu,' 

})); 

model.add (tf.layers.denselt 将 适用 于 二 分 类 任务 的 sigmoiq 
units: 1, 函数 设 为 输出 层 的 激活 函数 
activation: 'sigmoid' 


i 


通过 调用 yarn train multihot --maxLen 500 命令 ， 可 以 看 出 模型 在 验证 集 上 达到 的 
最 佳 准确 率 约 为 0.89。 它 的 表现 还 不 错 ， 因 为 比 随机 猜测 的 准确 率 ( 0.5 ) 要 高 得 多 。 由 此 可 见 ， 
对 于 当前 的 情感 分 析 任务 而 言 , 仅 靠 观察 影评 中 出 现 过 哪些 单词 , 是 可 能 达到 一 个 可 观 的 准确 率 
的 。 例 如 ， 像 enjoyable( 令 人 愉快 ) 和 sublime 〈 妙 不 可 言 ) 这 样 的 词 明显 和 正面 评价 有 关 ， 而 
像 sucks ( 差劲 ) 和 bland (索然 无 味 ) 这 样 的 词 则 很 大 可 能 属于 负面 有 影评。 当然 , 在 很 多 场景 中 ， 
仅 靠 用 词 来 判断 影评 的 性 质 是 有 误导 性 的 。 例 如 ， 让 我 们 来 看 一 个 假想 的 句子 ， “Don't get me 
wiong,Ihardly disagree this is an excellent film”(“ 不 要 误会 ,我 不 可 能 不 觉得 这 是 部 优秀 的 作品 ”)。 
很 明显 ， 要 理解 这 句 话 必须 考虑 到 每 个 词 的 序列 信息 。 也 就 是 说 , 不仅 需要 知道 有 哪些 词 ， 还 需 
要 知道 它们 出 现 的 顺序 。 下 一 节 中 将 使 用 一 种 能 够 保留 序列 信息 的 回 量 化 方法 和 一 种 能 够 利用 这 
种 序列 信息 的 模型 来 再 次 尝试 学 习 这 些 数据 。 该 模型 可 以 超越 本 市 得 到 的 基准 准确 率 。 词 舱 入 和 
1D convnet 闪 亮 登场 的 时 候 到 了 。 


9.2.3 一 种 更 高 效 的 文本 表示 : 词 舱 入 

什么 是 词 散 入 ( word embedding ) ? 就 和 one-hot 编码 一 样 ( 见 图 9-6 ),， 词 舱 和 人 是 一 种 将 单 
词 表示 为 同 量 的 方法 ( 即 TensorFlow.js 中 的 一 维 张 量 ),。 然而 与 之 前 不 同 的 是 , 在 词 艇 入 方法 中 ， 
回 量 元 素 的 值 可 以 通过 训练 得 到 ， 而 不 是 必须 按照 某 种 死板 的 规则 〈 例 如 one-hot 编码 中 单词 到 
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索引 的 映射 关系 ) 进行 硬 编码 。 换 言 之 , 针对 文本 设计 的 神经 网 络 使 用 词 角 入 时 , 词 租 入 向 量 会 
成 为 模型 中 可 训练 的 权重 参数 。 它 们 在 反 向 传播 中 的 更 新 规则 就 和 模型 中 其 他 的 权重 参数 一 样 。 

图 9-7 中 的 示意 图 展示 了 这 一 场景 ,在 TensorFlow.]S 中 ,可 以 使 用 tf.layer.embedding () 
层 类 型 进行 词 艇 入 。 它 包含 一 个 可 训练 的 权重 和 矩阵。 该 权重 矩阵 的 形状 为 [vocabularysSize， 
embeddingDims]。 其 中 vocapularySize 是 单词 表 中 不 重复 单词 的 数量 ,，embeddingDims 
是 用 户 选 择 的 词 钦 入 癌 量 维 数 。 对 于 每 个 给 定 的 单词 ， 比 如 the， 可 以 通过 单词 和 索引 的 对 应 天 
系 表 ,找到 词 舱 入 和 矩 阵 中 的 对 应 行 。 该 行 就 是 这 个 单词 的 词 馆 入 癌 量 。 注 苇 ， 单词 和 索引 的 对 应 




















关系 表 不 是 对 和 人 层 的 一 部 分 。 它 是 一 种 独立 于 模型 存在 的 数据 结构 ( 参见 代码 清单 9-9 中 的 示例 )。 


词 通 入 矩阵 


句子 
长 度 





词 幅 入 维度 


词 侯 入 维度 








图 9-7” 词 佣 人 矩阵 的 工作 原理 示意 图 。 词 佣 入 矩阵 的 每 一 行 对 应 单词 表 中 的 一 个 单 
词 ， 每 一 列 是 一 个 词 舱 入 维度 。 示 意图 中 的 格子 用 不 同 灰 度 表 示 词 艇 入 矩阵 中 
的 元 素 值 ， 这 些 值 是 随机 选择 的 


如 果 需 要 向 量化 的 是 一 个 单词 序列 〈 就 像 图 9-7 中 展示 的 句子 一 样 )， 那 么 对 于 序列 中 的 每 
个 蛙 词 ,可 以 按照 它们 的 出 现 顺序 重复 上 述 的 查找 过 程 。 最 后 将 每 次 获得 的 词 脱 入 癌 量 重 蕉 到 一 
起 ,得 到 一 个 形状 为 [sequenceLength, embeddingDims] 的 二 维 张 量 , 其 中 sequenceLength 
是 句子 中 单词 的 数量 。 ”如果 句 子 中 含有 重复 的 单词 〈 例 如 图 9-7 中 的 the )， 该 如 何 处 理 呢 ? 不 
必 担 心 ， 就 让 同样 的 词 肯 入 癌 量 在 最 后 生成 的 二 维 张 量 中 出 现 多 次 就 可 以 了 。 

使 用 词 通 入 有 以 下 好 处 。 

D 它 能 解决 之 前 one-hot 编码 导致 的 向 量 尺 寸 爆炸 性 增长 问题 。embedqingDims 通 背 要 

比 vocabularySize 小 得 多 。 例 如， 在 即将 为 IMDb 数据 集 使 用 的 1D convnet 中 ， 




















中 这 种 涉及 多 个 单词 的 查找 过 程 可 以 通过 tf .gather() 方 法 有 效 地 实现 。 这 也 是 TensorFlow.js 的 般 入 层 在 底层 使 
用 的 方法 。 
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vocabularySize 为 10000，embedqdqinoDims 为 128。 因 此 ， 和 在 要 表示 一 个 长 达 500 个 
单词 的 IMDb 点评 样 例 ， 词 内 入 共 需 要 500 x 128 = 64 000 个 浮 点 数 ， 而 one-hot 编码 则 需 
要 500 x 10 000 = $ 000 000 个 浮 点 数 。 这 说 明 词 移入 是 一 种 高 效 得 多 的 表示 方法 。 

口 这 种 表示 方法 不 使 用 特定 的 规则 对 单词 排序 ， 而 是 让 词 艇 入 矩阵 像 神 经 网 络 中 的 其 他 权 
香 一 样 通 过 反 癌 传播 进行 训练 。 这 样 ， 词 租 入 就 可 以 学 习 单 词 之 则 的 语义 。 章 思 相 近 的 
单词 在 词 艇 入 空间 中 的 词 艇 入 癌 量 也 会 比较 接近 。 例如, 像 very (非常 ) 和 truly ( 真 的 ) 
这 样 的 单词 语义 比较 接近 , 而 very (非常 ) 和 barely (勉强 ) 这 样 的 单词 则 语义 区 别 较 大 。 
因此 ， 前 者 的 向 量 也 会 更 为 接近 。 为 何 会 出 现 这 种 现象 呢 ? 可 以 这 样 直 观 地 理解 它 : 如 
果 将 影评 样 例 中 的 大 量 单 词 蔚 换 成 语义 相近 的 单词 ， 训 练 完 毕 的 模型 输出 的 分 类 结果 应 
该 是 相同 的 。 这 只 有 在 每 对 单词 的 词 舱 入 癌 量 相 互 接近 时 才 可 能 发 生 ， 因 为 模型 对 这 些 
输入 的 后 续 处 理 是 相同 的 。 

口 此 外 ， 词 嵌入 空间 有 多 个 维度 (比如 128 个 )。 这 意味 着 词 艇 入 癌 量 可 以 表示 单词 不 同方 
面 的 特征 。 例 如 ， 可 能 有 一 个 维度 会 表示 单词 在 文本 中 的 词性 。 在 这 个 维度 上 ， 像 fast 
(迅速 ) 这 样 的 形容 词 ， 会 接近 于 同 为 形容 词 的 warm ( 温暖 )， 而 不 是 house ( 房屋 ) 这 
样 的 名 词 。 可 能 还 会 有 一 个 维度 表示 单词 的 阴阳 性 。 在 该 维度 上 ，actress ( 女 演 员 ) 会 接 
近 于 其 他 像 queen ( 女王 ) 这 样 语义 更 为 女性 化 的 词 ， 而 不 是 actor ( 男 演员 ) 这 样 更 为 男 
性 化 的 词 。 在 下 一 市 中 (参见 信息 栏 9-2 )， 我 们 将 展示 如 何 可 视 化 词 艇 入 。 另 外 ， 在 用 
IMDb 数据 集训 | 练 完 基 于 词 散 入 的 神经 网 络 后 , 我 们 还 会 进一步 探索 它们 所 展现 出 的 有 趣 
的 结构 。 

表 9-1 中 提供 了 one-hot 编码 /multi-hot 编码 与 词 舱 入 区 别 的 概览 。 它 们 是 使 用 最 广泛 的 两 种 

词 回 量化 范式 。 


表 9-1 比较 词 向 量化 的 两 种 范式 : one-hot 编码 /multi-hot 编码 与 词 能 入 






























































one-hot 编码 /multi-hot 编码 词 和 藤 入 
便 编 码 还 是 训练 “ 硬 编 码 得 到 训练 得 到 : 这 是 因为 词 艇 入 和 矩阵 是 可 训练 权重 参数 的 一 部 
得 到 分 。 训 练 得 到 的 值 一 般 会 反映 出 训练 后 的 单词 表 的 语义 结构 
稀 巩 还 是 密集 的 稀 巩 : 绝 大 部 分 元 素 为 去 ,， 少 部 分 “密集 : 数值 是 连续 且 不 同 的 
为 一 
可 扩展 性 对 于 大 单词 表 扩 展 性 不 好 : 癌 量 的 ”对 于 大 单词 表 扩展 性 好 : 癌 量 的 尺寸 ( 词 舱 入 维 数 ) 不 随 单 
尺寸 和 单词 表 的 尺寸 成 正比 词 表 尺寸 变化 


9.2.4 1D convnet 


第 4 草 中 曾 展 示 过 二 维 卷 积 层 在 处 理 图 像 输入 的 深度 神经 网 络 中 所 扮演 的 关键 角色 。conv2d 
层 可 以 学习 表示 图 像 中 一 块 二 维 区 域 中 的 局 部 特征 。 这 一 卷 积 概念 还 可 以 扩展 到 序列 数据 上 。 这 种 
算法 叫 作 一 维 卷 积 ( 1D convolution )。 它 在 TensorFlow.js 中 对 应 的 实现 为 tf .layers.conv1id() 
国 数 。conv1d 和 conv2d 两 种 层 类 型 背后 的 基本 思想 是 一 样 的 : 它们 都 是 可 训练 的 、 针 对 具有 和 平 
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移 不 变性 的 局 部 特征 的 特征 提取 益 。 例如 , 经 过 针对 图 像 相 关 的 任务 的 训练 后 ，conv2d 层 可 能 会 
变 得 对 图 像 角 落 人 处 某 个 图 案 的 朝向 和 颜色 变化 敏感 。 同 样 ， 经 过 针对 文本 相关 的 任务 的 训练 后 ， 
convld 层 可 能 会 变 得 对 “一 个 贬义 的 动词 后 面 紧 跟 一 个 讲义 的 形容 词 ” 这 样 的 模式 敏感 。™ 

图 9-8 更 详细 地 阐释 了 convld 层 的 工作 原理 。 第 4 章 中 的 图 4-3 介绍 过 , conv2d 层 的 工作 原 
理 是 将 一 个 卷 积 核 在 输入 图 像 中 所 有 可 选 的 位 置 上 滑动 。 一 维 卷 积 算法 与 此 类 似 , 也 是 要 滑动 卷 
积 核 , 但 它 更 为 向 单 ， 因 为 请 动 仅 发 生 在 一 个 维度 上 。 在 每 个 滑动 位 置 上 , 算法 会 提取 输入 张 量 
的 一 个 切 厂 。 该 切片 的 长 度 为 kernelSize( 这 是 convld 层 的 可 配置 属性 之 一 )。 对 于 本 示例 而 
言 ， 它 的 形状 还 有 第 二 个 维度 ， 对 应 于 词 舱 入 的 维 数 。 随 后 ， 算 法 会 在 输入 切片 和 conv1d 层 的 
卷 积 核 间 进行 点 乘 (元 素 相 乘 ， 然 后 对 乘积 求 和 ) 运算 ,获得 输出 序列 的 一 个 输入 切片 。 对 于 每 
一 个 可 选 的 滑动 位 置 ， 痢 会 执行 上 述 运 算 ， 最 后 获得 的 结 来 就 是 完整 的 输出 序列 。 就 和 convld 
层 的 输入 张 量 一 样 ， 输 出 的 是 一 个 序列 ， 尺 管 序列 的 长 度 ( 取决 于 输入 序列 的 长 度 ， 即 
kernelSize, 以 及 convld 层 其 他 属性 的 配置 情况 ) 和 特征 维 数 ( 取决 于 convld 层 的 配置 中 的 
filters 属性 ) 与 原 输入 有 所 不 同 。 对 于 2D convnet 而 言 ， 将 多 个 conv2d 层 著 起 来 对 输入 进行 
处 理 是 一 种 常用 手段 。 与 此 类 似 ， 也 可 以 将 多 个 conv1d 层 登 起 来 ， 形 成 一 个 次 度 1D convnet。 

输入 维度 与 卷 积 核 答 出 维度 
进行 点 乘 


一 一 一 一 一 天- 一 二 一 
Te 
LS 
a 
输入 ”输出 
维度 维度 


图 9-8 一 维 卷 积 (tf .layers.conv1a() ) 工作 原理 的 示意 图 。 为 了 简化 示意 图 ， 此 处 只 在 示意 
图 的 左 侧 展示 了 一 个 输入 样 例 。 假 设 输入 序列 的 长 度 为 12，conv1d 层 的 卷 积 核 尺 寸 为 5。 
那么 对 于 每 个 滑动 位 置 ， 算 法 会 从 输入 序列 中 提取 一 个 长 度 为 5 的 切片 。 随 后 ， 该 切片 会 
和 conv1d 层 的 卷 积 核 进行 点 乘 ， 得 到 输出 序列 的 一 个 切 斤 。 对 于 每 一 个 可 选 的 请 劲 位 置 ， 
都 会 执行 上 述 运算 ， 最 后 获得 的 结果 就 是 完整 的 输出 序列 ( 即 示 意图 右 侧 展 示 的 结果 ) 












































各 半 风 兴 中 坊 
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1. 规 断 和 填充 序列 

有 了 convld 层 这 个 处 理 文本 的 机 融 学 习 利 规 后 ， 是 否 可 以 开始 用 IMDb 数据 集训 练 1D 
convnet 了 呢 ? 稍 等 片刻 ， 因 为 还 有 一 个 很 重要 的 概念 有 竺 解释 : 如 何 堆 新 和 填充 序列 。 为 何 需 
要 截断 (truncation ) 和 填充 (padding ) 这 两 个 操作 呢 ? 这 是 因为 TensorFlow.js 模型 要 求 fit () 





由 你 可 能 已 经 猜 到 了 ， 除 此 之 外 ,还 有 三 维 卷 积 。 它 对 于 处 理 涉 及 三 维 数据 〈 即 立体 数据 ) 的 深度 学 习 任 务 非常 有 
用 ， 例 如 处 理 某 些 医疗 领域 和 地 理 领 域 的 图 像 数 据 。 
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的 参数 是 一 个 张 量 ， 而 张 量 必须 有 具体 的 形状 。 因 此 ， 尽 管 影评 的 长 度 不 是 固定 的 〈 短 的 仅 有 
10 个 单词 ， 长 的 多 达 2400 个 单词 ), 但 是 我 们 必须 选择 一 个 特定 的 长 度 (maxLen ) 作为 输入 特 
征 张 量 的 第 二 个 维度 ， 从 而 得 到 一 个 形状 为 [numExamples, maxLen] 的 张 量 。 在 上 一 节 中 使 用 
multi-hot 编码 时 没有 遇 到 这 样 的 问题 ， 因 为 multi-hot 编码 张 量 的 第 二 个 维度 不 受 序列 长 度 影 啊 。 

在 选择 maxLen 的 值 时 ， 需要 考虑 以 下 两 方面 。 

口 它 必须 足够 大 ， 这 样 才能 保留 绝 大 部 分 影评 中 有 用 的 内 容 。 如 有 果 选 择 20 作为 maxLen， 

那么 就 可 能 因为 取 值 过 小 而 错误 舍弃 这 些 有 用 的 内 容 。 

口 它 又 不 能 过 大 ， 大 到 超出 绝 大 部 分 影评 的 长 度 ， 因 为 这 是 对 内 存 和 算 力 的 浪费 。 

通过 对 这 两 方面 的 权衡 ,我 们 最 终 选 择 每 个 影评 保留 最 多 500 个 单词 作为 本 示例 的 maxLen。 
启动 1D convnet 的 训练 时 ， 可 以 用 下 面 的 命令 中 展示 的 --maxLen 选项 配置 它 。 


yarn train --maxLen 500 cnn 


选择 好 maxLen 后 ， 所 有 的 点 评 样 例 都 必须 通过 截断 和 填充 ， 调 整 成 这 一 长 度 。 具 体 而 言 ， 
较 长 的 点 评 会 被 截断 ， 而 较 短 的 点 评 则 会 被 填充 。 这 正 是 padSequences () 因数 的 作用 〈 见 代 
但 清单 9-7 )。 就 截断 较 长 的 序列 而 言 ， 共 有 两 种 方法 : 一 怎 微 断 订 亿 的 开 姐 主 分 (代码 清单 9-7 
中 的 'pre' 选 项 )， 二 是 截断 序列 的 结尾 部 分 。 此 处 选用 的 是 第 一 种 方法 。 这 是 因为 ， 和 开始 音 
分 相 比 ， 影评 的 结尾 部 分 更 可 能 含有 和 用 户 情感 相关 的 信息 。 与 此 类 似 , 填充 较 短 的 序列 也 有 两 
种 方法 : 在 序列 之 前 或 之 后 填充 字符 ( PAD_CHAR )。 此 处 , 我 们 任意 选择 了 在 序列 之 前 填充 字符 。 
代码 清单 9-7 摘 自 sentiment/sequence utils.js 文件 。 


代码 清单 9-7 在 加 载 文本 特征 前 ， 截 断 和 填充 序列 



































export function padSeduences ( 启 . 
sequences, maxLen, 0 
padding = 'pre', 
truneating ss pre 如 果 序 列 长 度 大 于 配置 的 
value = PAD_CHAR) { 长 度 ( 即 maxLen)， 那 么 
return sequences.map (Sed => 对 其 截断 
if (seq.length > maxLen,) 
AI re 四 截断 序 Wa ee 一 是 截断 序列 
ee 1Ce ) SEeqd.1engt - maxLen) 的 开始 音 分 (配置 的 值 为 ' pre， 时 )， 
一 是 帘 电 序列 的 结尾 部 分 


seq.splice(maxLen, seqg.length - maxLen); 
} 
} 


if (segq.length < maxLen) { 如 果 序 列 长 度 小 于 配置 的 
ee | 长 度 ( 即 maxLen)， 那 么 
or (let i = ; 1 < maxLen 一 -| eng EE) 对 其 填充 


pad.push (value); 


} 4 序列 
if (padding === 'pre') { 4 
seq = pad.concat (Sed) ; ee a 
) elge 1 和 截断 类 似 , 填充 序列 也 有 两 种 方法 : 


在 开始 处 填充 (配置 的 值 为 'pre' 
时 )， 或 在 尾部 填充 


Seq = Sed.Cconcat (Dad) ; 
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) 注意 : 如 果 'pre' 的 长 度 正好 等 于 
maxLen， 那 么 直接 返回 sed 


return Sed ，; 


了 


2. 创建 并 运行 基于 IMDb 数据 集 的 1D convnet 

至 此 , 创建 1D convnet 的 所 有 准备 工作 就 完成 了 。 将 准备 好 的 序列 处 理 方 法 运用 到 IMDb 数 
据 集 上 ,看 是 否 真 的 能 在 情感 分 析 任务 中 得 到 更 高 的 准确 率 。 代 人 码 清单 9-8 展示 了 创建 1D convnet 
的 代码 (摘自 sentimenttrain.js， 内 容 有 所 简化 )。 随 后 是 对 由 此 生成 的 tf .Mogdel 模型 对 象 的 拓 
扑 结 构 概 哆 。 


代码 清单 9-8 为 IMDb 情感 分 析 问 题 创建 1D convnet 

















模型 的 第 一 层 是 embedding 层 。 它 负 
const model = tf.seaquential(); 责 将 输入 样 全 的 整数 索引 转换 成 对 应 
model.add (tf.layers.embedding(t{ 的 单词 向 量 


CORPOED un embeddingSize, 则 embeqdqding 层 无 法 决定 词 嵌入 和 矩阵 
1InDutLendth : maxLen 的 尺寸 


I 


J 3 











model.add (tf.1layers. ae {rate: 0.5}) 添加 dropout 层 ， 
model.add (tf.layers.convidl | 和 人、 
以 应 对 过 拟 合 

filters: 250， 是 时 候 添 加 

kernelSize: 5, conv1d 层 

Eee2 1 globalMaxPool1d 层 通 过 提取 

padding: ‘valid,, 出 每 个 过 滤器 中 的 最 大 元 素 值 ， 

activation: Telu， 塌 缩 了 时 间 维 度 。 由 此 得 到 的 数 
1)); 据 适 用 于 随后 的 密集 层 (MLP) 
model.add(tf.layers.globalMaxPoolld({})); < 二 一 一 
model.add (tf.layers.denselt 

units: 250, 在 之 前 的 层 慨 之 上 再 添加 
和 一 个 双 层 的 MLP 

})); 
model.add(tf.layers.dense({units: 1, activation: 'sigmoid'})); 
Layer (type) Output shape Param # 
embedding_Embeddingl (Embedd [null,500,128] 1280000 
dropout _ Dropout1 (Dropout) [null,500,128] 0 
COonvid ConviD1 (Conv1LD ) [null,496,2501] 160250 
global max poolinglqd GlobalM [null,250] 0 
dense Densel1l (Dense) [null,250] 62750 
dense Dense2 (Dense) [null,1] 251 
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Total params: 1503251 








Trainable params: 1503251 
Non-trainable params: 0 


将 JavaScript 代码 和 拓扑 结构 概览 结合 起 来 看 ， 可 以 让 我 们 更 好 地 理解 模型 的 特点 。 下 面 列 
举 了 其 中 一 些 特 点 。 
口 模型 的 形状 为 [nul1，500] ， 其 中 null 是 未 确定 的 批 次 维度 ( 即 样 例 个 数 )，500 是 
每 个 影评 的 最 大 长 度 ( 即 maxLen )。 输 入 张 量 则 包含 经 过 截断 和 填充 的 单词 整数 索引 
的 序列 。 

口 模型 的 第 一 层 是 embedding 层 。 它 会 将 单词 的 索引 转换 成 其 对 应 的 单词 向 量 ， 从 而 得 到 
[null，500，128] 的 输出 形状 。 如 你 所 见 ， 序 列 长 度 ( 500 ) 没有 任何 变化 ， 词 通信 维 
度 (128 ) 则 体现 在 形状 的 最 后 一 个 元 系 中 。 

口 embedding 层 之 后 是 conv1d 层 , 即 模型 的 核心 部 分 。 它 的 卷 积 核 尺 寸 为 5, 默认 步 幅 为 1， 
填充 的 类 型 为 valiq。 因 此 ， 沿 序列 维度 上 ,共有 500 一 5+1=496 个 可 能 的 滑动 位 置 。 
这 就 是 为 什么 输出 形状 ( [nul1，496，250] ) 的 第 二 个 元 素 值 为 496。 形 状 的 最 后 一 个 
元 系 (2S0 ) 对 应 为 conv1d 层 配置 的 过 滤 需 数量 。 

D convld 层 之 后 的 globalMaxPoolld 层 和 图 像 convnet 中 使 用 的 maxPooling2d 层 类 似 。 但 是 ， 
它 的 池 化 运算 要 更 为 大 刀 阔 人 答 ， 它 会 沿 序列 维度 将 所 有 元 素 浓缩 成 单个 最 大 值 。 由 此 得 
到 的 输出 形状 为 [null，250]。 

口 上 一 步 得 到 的 张 量 形状 是 一 维 的 ( 忽略 批 次 维度 不 计 )。 在 此 基础 上 ， 再 构建 一 个 由 两 个 

密集 层 组 成 的 MLP， 就 得 到 了 最 后 的 模型 。 

用 train --maxLen 500 cnn 命令 启动 1D convnet 的 训练 。 经 过 两 到 三 个 轮 次 的 训练 后 ， 
模型 最 终 达 到 的 验证 准确 率 约 为 0.91。 相 比 于 之 前 在 基于 multi-hot 回 量化 的 MLP 模 型 上 达到 的 
准确 率 ( 约 为 0.89 ) 而 言 ， 这 算是 一 个 小 幅 但 稳步 的 提升 。 这 是 因为 1D convnet 习 得 了 序列 中 的 
顺序 信息 ， 而 这 点 是 基于 multi-hot 向 量化 的 MLP 模型 不 可 能 做 到 的 。 

那么 1D convnet 是 如 何 捕捉 到 序列 中 的 顺序 信息 的 呢 ? 答案 就 在 于 它 的 卷 积 核 。 具 体 而 言 ， 
这 是 因为 卷 积 核 的 点 积 运 算 对 元 素 的 排序 敏感 。 例 如 ， 对 于 一 个 包含 5 个 单词 的 输入 “Ilikeitso 
much”, 一 维 卷 积 会 输出 某 个 特定 的 结果 。 但 是 一 旦 单词 的 顺序 变 了 , 比如 变 为 “much soIlikeit ， 
那么 一 维 卷 积 的 输出 也 会 随 之 改变 ， 尺 省 句子 的 单词 组 成 并 没有 变 。 

此 外 ， 还 有 一 点 要 特别 注意 : convld 层 目 坪 是 无 法 学 习 超出 其 卷 积 核 尺寸 的 模式 的 。 例 如 ， 
假设 句子 中 包含 两 个 关键 词 ， 它 们 相距 很 还, 但 其 顺序 会 影响 句子 的 含义 。 如 果 convld 层 的 卷 
积 核 尺 寸 小 于 这 两 个 单词 的 距离 , 那么 卷 积 层 就 无 法 和 学习 它们 之 间 的 关系 。 就 这 点 而 言 , 像 GRU 
和 LSTM 这 样 的 RNN 层 要 优 于 一 维 卷 积 层 。 

一 维 卷 积 弥 补 这 一 缺陷 的 方法 是 增加 卷 积 的 深度 。 具 体 而 言 ， 可 以 将 多 个 conv1d 层 著 在 一 
起 ， 从 而 使 位 于 较 高 层 的 conv1d 层 拥 有 更 大 的 “感受 野 ”。 增 大 “感受 野 ” 使 conv1d 层 能 够 感 
知 到 距离 较 远 的 单词 间 的 关系。 然而 ,在 很 多 针对 文本 的 机 楷 学 习 问 题 中 ,这 种 单词 间 的 远 踪 离 
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依赖 关系 并 不 会 对 预测 结果 有 太 大 影响 。 因 此 , 使 用 拥有 少量 conv1d 层 的 1D convnet 就 足够 了 。 
同样 是 对 于 IMDb 情感 分 析 示 例 ， 我 们 还 可 以 使 用 基于 LSTM 的 模型 ， 并 为 该 模型 配置 和 1D 
convnet 相同 的 maxLen 值 和 词 航 入 维 数 。 


yarn train -~--maxLen 500 lstm 


注意 ，LSTM (和 GRU 类 似 ,但 更 为 复杂 。 详 情 参 见 图 9-4 ) 达到 的 最 佳 验证 准确 率 和 1D 
convnet 大 致 相同 。 这 可 能 是 因为 ， 对 于 本 示例 使 用 的 影评 数据 集 和 情感 分 析 任 务 而 言 ， 单 词 与 
短语 间 存 在 的 远 距 离 依赖 关系 对 分 类 结果 而 言 并 不 重要 。 

由 此 可 见 ， 对 于 这 类 文本 分 析 问 题 而 言 ，1D convnet 是 RNN 之 外 的 一 个 不 错 的 选项 。 如 果 
考虑 到 一 维 卷 积 相 较 于 RNN 小 得 多 的 算 力 消耗 ， 就 更 是 这 样 了 。 从 cnn 和 1stm 的 命令 执行 情 
况 可 以 看 出 ，1D convnet 的 训练 明显 要 比 LSTM 的 训练 快 得 多 ( 约 快 6 倍 )。LSTM 和 RNN 较 慢 
的 训练 速度 是 它们 内 部 的 运算 机 制导 致 的 。 它 们 内 部 的 运算 是 按 步 又 执行 的 ， 且 无 法 并 行 化 。 相 
较 而 言 ， 卷 积 在 设计 上 就 非常 适用 于 并 行 化 计算 。 








言 息 栏 9-2 用 Embedding Projector 工具 可 视 化 训练 好 的 词 宜 入 向 量 


Embedding Projector 
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Mh 正面 单词 : excellent、,%， | 
inspiring、delightful、 J 3 本 i ee 


impressed、 brilliant 
Iteration: 1093 


国 How to use t-SNE effectively. 


用 Embedding Projector 提供 的 t-SNE 降 维 方法 可 视 化 1D convnet 训练 出 的 词 艇 入 问 量 
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经 过 训练 后 ，1D convnet 的 词 误 入 有 没有 展现 出 一 些 值得 关注 的 新 模式 呢 ? 为 了 可 视 化 词 
谱 入 向 量 的 变化 ,可 以 为 yarn train 命令 配置 --embeddqingFilesPrefix 这 一 可 选 的 选项 。 


yarm Eraimn maxbLen sO00 enn epocns 2 emboeddingeEileseprefix 
/tmp/imdb_ embed 


上 述 命 令 会 生成 以 下 两 个 文件 。 
口 /tmp/imdb_ embed vectors.tsv: 一 个 存 有 词 衣 入 向 量 数值 的 、 格 式 为 制 表 符 分 隔 值 
( tab-separated-values, tsv ) 的 文件 。 文 件 中 的 每 一 行 代表 一 个 单词 的 词 诅 入 向 量 。 对 
于 上 文 的 示例 而 言 ， 该 文件 共有 10 000 行 ( 即 单 词 表 的 尺寸 )， 每 行 共 有 128 个 数值 
( 词 谋 入 维 数 )。 
口 /tmp/imdb_embed labels.tsv: 一 个 包含 单词 标签 的 文件 。 文件 中 的 标签 与 前 一 个 文件 
中 的 向 量 相对 应 ， 一 行 对 应 一 个 单词 。 

可 以 将 这 两 个 文件 上 传 到 Embedding Projector 工具 中 进行 可 视 化 (结果 参见 上 图 )。 因 为 
词 瞪 入 向 量 位 于 高 维 空间 (128 维 ) 中 ， 所 以 有 必要 将 它们 降 维 到 三 维 或 更 低 维度 ， 以 便于 理 
解 。Embedding Projector 工具 提供 了 两 种 降 维 方法 :tt 分 布 随机 邻 域 租 入 (tdistributed stochastic 
neighbor embedding, t-SNE ) 和 主 成 分 分 析 (principal component analysis, PCA )。 此 处 虽然 不 会 
讲解 两 种 方法 的 异同 ,但 简要 地 说 ,它们 的 作用 都 是 将 高 维 词 诅 入 向 量 映 射 到 三 维 ， 并 尽 可 能 
减 小 向 量 间 关 系 的 损失 。 相 较 而 言 ，t-SNE 是 一 种 更 珊 级 的 方法 ,但 同时 因 其 复杂 度 更 高 ， 故 
而 也 会 消耗 更 多 的 算 力 。 此 处 选用 t-SNE 进行 可 视 化 ， 其 结果 如 上 图 所 示 。 

点 云 (point cloud ) 中 的 每 个 点 对 应 单词 表 中 的 一 个 单词 。 你 可 以 将 鼠标 移动 到 点 上 查看 
其 对 应 的 单词 是 什么 。 尽 管 情 感 分 析 任务 使 用 的 训练 集 较 小 ， 但 是 它 的 词 误 入 向 量 已 经 展现 
出 一 些 有 趣 的 、 和 单词 语义 相关 的 新 模式 。 有 具体 而 言 , 很 大 一 部 分 常 出 现在 正面 影评 中 的 单词 
(例如 excellent、inspiring 和 delightful ) 集中 在 点 云 的 一 端 ， 另外 一 端 则 主要 是 一 些 听 起 来 较 
负面 的 单词 (例如 sucks、gross 和 pretentious )。 如 果 增 加 模型 或 数据 集 的 规模 ， 图 中 可 能 
会 出 现 更 多 有 趣 的 模式 ， 但 这 个 小 示例 已 经 足以 说 明 词 误 入 方法 的 威力 了 。 

由 于 词 诅 入 是 针对 文本 的 深度 神经 网 络 的 重要 组 成 部 分 ,研究 者 已 经 为 机 器 学 习 从 业者 预 
训练 了 很 多 开 箱 即 用 的 词 误 入 向 量 。 得 益 于 此 ， 我 们 不 必 再 像 本 示例 中 所 做 的 那样 ,训练 自 己 
的 词 具 入 向 量 。GloVe〈 Global Vectors 的 缩写 ) 是 最 着 名 的 预 训练 词 向 量 之 一 。 它 由 斯 坦 福 自 
然 语言 处 理 研究 组 ( Stanford Natural Language Processing Group ) 提供 。 

使 用 像 GloVe 这 样 的 预 训 练 词 识 入 向 量 有 两 大 好 处 。 第 一 ， 它 能 够 减少 训练 的 计算 量 , 这 
是 因为 无 须 再 训练 词 谤 层 ， 可 以 直接 将 其 固化 。 第 二 ，GloVe 这 样 的 预 训练 词 详 入 向 量 是 由 数 
十 亿 个 单词 训练 而 成 的 ， 其 质量 要 远 高 于 本 示例 中 的 小 规模 数据 集 (IMDb 数据 集 ) 训练 出 的 
向 量 。 从 这 种 角度 来 看 , 预 训练 的 词 说 入 向 量 在 自然 语言 处 理 领 域 扮 演 的 角色 和 预 训练 的 深度 
convnet (例如 第 5 章 介 绍 的 MobileNet ) 在 计算 机 视觉 领域 扮演 的 角色 是 类 似 的 。 





3. 用 1D convnet 在 浏览 器 中 进行 推断 
在 sentiment/index.js 文件 中 ， 可 以 找到 将 Node.js 中 训练 的 模型 部 团 到 客户 闹 的 代码 。 就 和 





本 书 中 的 其 他 示例 一 样 ， 可 以 通过 yarn watch 命令 启动 这 个 Web 应 用 程序 。 该 命令 会 依次 编 
译 代 码 ， 局 动 Web 服务 希 ， 最 后 在 目 动 弹出 的 浏览 锅 标 签 页 中 展示 index.html 页 中 引用 的 代码 。 
在 弹出 的 页 面 中 , 你 可 以 通过 单 击 按钮 触发 HTTP 请 求 来 加 载 预 训 练 的 模型 ， 随 后 再 用 加 载 好 的 
模型 对 文本 框 中 的 影评 数据 进行 情感 分 析 。 文 本 框 中 的 影评 样本 是 可 编辑 的 。 因 此 ,你 可 以 任意 
修改 它 , 并 实时 观察 你 所 做 的 修改 会 如 何 影响 二 分 类 问题 的 预测 结果 。 作 为 修改 的 基础 ，Web 应 
用 程序 会 提供 两 个 默认 的 影评 样 例 〈 一 个 正面 ， 一 个 负面 )。 因 为 加 载 的 1D convnet 在 浏览 器 中 
的 运行 速度 足够 快 ， 所 以 可 以 在 修改 文本 框 中 内 容 的 同时 ， 实 时 生成 情感 评分 。 
推断 代码 的 核心 部 分 虽然 非常 简单 (参见 摘自 sentiment/index.js 的 代码 清单 9-9 )， 但 仍 有 几 
点 但 得 特别 注意 。 
口 这 段 代 码 在 将 文本 转换 为 单词 的 索引 前 ， 会 先 将 它们 转换 为 小 号 、 无 标点 、 无 空格 的 形 
式 。 这 是 因为 我 们 使 用 的 单词 表 仪 包含 小 写 单词 。 
口 单词 表 之 外 的 单词 会 使 用 特殊 的 单词 索引 表示 ( O00V_INDEX )。 这 一 般 会 发 生 在 稀有 单词 
或 合 有 错别字 的 单词 上 。 
口 和 之 前 的 训练 阶段 一 样 ( 见 代 码 清 单 9-7 )， 此 处 也 是 使 用 padsequences () 因数 来 确保 
模型 的 输入 张 量 拥有 正确 的 长 度 。 这 同样 是 通过 截断 和 填充 这 两 种 方法 实现 的 。 这 一 点 
充分 体现 了 用 TensorFlow.js 执行 这 类 机 需 学 习 任 务 的 优势 : 可 以 在 后 端 训练 环境 和 前 端 
推 靳 环境 中 复 用 相同 的 数据 处 理 代 码 ， 从 而 减少 数据 侦 料 的 风险 〈 关 于 但 糙 风 险 的 更 许 
细 介 绍 ， 请 参考 第 6 草 )。 


代码 清单 9-9 用 训练 好 的 1D convnet 在 前 妆 中 进行 推断 







































































将 输入 文本 转换 为 小 写 、 
predict (text) { 无 标点 、 无 空格 的 形式 

const jinputText = 
text.trim() .toLowerCase() .replace(/(\.|\,|\!)/g, '').split(' '); 

const sequence = inputText.map (word => { 
let wordIindex = this.wordIndex[word|] + this.indexFrom; 将 输入 文本 中 的 所 有 单词 映射 成 
if (wordIindex > this.vocabularySize) { 单词 的 索引 。this .wordIndex 

wordindex = OOV_INDEX; 中 类 ss 

人 BE 
return wordIndex; 一 个 特殊 的 索引 : O00V_INDEX 


}); 


Const paddedSequence = 











padSequences([segquencel], this.maxLen).; 通过 鹤 断 过 长 的 影评 、 填充 
conat input = tf,.tensor2d' 较 短 的 影评 , 让 输入 序列 达 
paddedSegquence, [1, this.maxLen]); 到 理想 的 长 度 
、 Const Sols = per Tormances now 2; 用 张 量 表示 数据 ,以 便 
记录 模 const predictOut = this.model.predict (input).;} > 后 传 入 模型 
型 推断 Const Score = predictOut.dataSync()[0]; i 
耗 时 多 predictOut .dispose!(); 
久 const endMs = performance.now!(); 这 是 推断 (对 模型 进行 正 向 


传播 ) 实际 发 生 的 地 方 


return {score: score, elapsed: (endMs - beginMs)}; 
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9.3 采用 注意 力 机 制 的 序列 到 序列 任务 


通过 耶 拿 气温 预测 示例 和 IMDb 情感 分 析 示 例 , 我 们 展示 了 如 何 用 一 个 输入 序列 预测 单个 数 
值 或 类 别 。 然而 ,在 一 些 最 有 趣 的 序列 数据 处 理 问题 中 ,通常 需要 基于 输入 序列 生成 一 个 输出 序 
列 。 这 类 任务 被 恰如其分 地 命名 为 序列 到 序列 ( sequence-to-sequence, seq2seq ) 任务 。seq2sedq 任 
务 可 以 分 为 很 多 种 ， 下 面 列 出 的 只 是 其 中 很 小 的 一 个 子 集 。 

口 文本 摘要 : 为 一 篇 长 达 上 万 字 的 文章 生成 一 个 简短 〈 比 如 100 字 以 内 ) 的 梗概 。 

口 机 器 翻译 : 将 某 种 语言 〈 比 如 英语 ) 写成 的 段落 翻译 成 男 外 一 种 语言 ( 比如 日 语 )。 

口 预测 文本 的 后 续 内 容 : 通过 句子 的 前 几 个 单词 预测 后 续 的 内 容 。 这 对 于 邮件 应 用 程序 和 

搜索 引擎 UI 的 目 动 完成 和 智能 推荐 功能 非 第 有 用 。 

口 谱 曲 :用 一 段 首 符 序 列 生成 一 段 以 这 些 音符 开头 的 旋律 。 

口 聊天 机 器 人 : 用 用 户 输入 的 句子 生成 一 个 能 达成 某 个 对 话 目 标 (例如 客服 或 内 聊 ) 的 回应 。 

注意 力 机 制 ( attention mechanism )“ 是 一 种 针对 seq2seq 任务 的 强大 且 流 行 的 方法 ， 通 常会 
将 它 和 RNN 结合 使 用 。 本 章 将 展示 如 何 利用 注意 力 机 制 和 LSTM 来 解决 一 个 简单 的 seq2seq 任 
务 。 具 体 而 言 , 该 任务 需要 将 各 种 日 期 格式 转换 成 标准 的 日 期 格式 。 尺 管 这 是 一 个 有 意 选 择 的 简 
单 示 例 ， 但 是 它 所 缠 含 的 知识 点 对 其 他 更 复杂 的 seq2seq 任务 〈 比 如 上 面 列 出 的 这 些 任务 ) 也 同 
样 适用 。 下 面 先 来 定义 一 下 这 个 日 期 转换 问题 。 









































9.3.1 定义 序列 到 序列 任务 


相信 很 多 人 都 曾 像 我 们 一 样 被 各 种 各 样 的 日 期 表示 方式 所 困扰 (甚至 有 时 会 为 此 感到 气 恼 )。 
如 果 考 虑 到 不 同 国家 的 日 期 表示 习惯 ， 这 个 问题 就 更 严重 了 。 有 些 人 偏好 用 “月 -日 -年 ”的 顺序 
表示 日 期 ; 有 些 人 偏好 “日 -月 -年 ”的 顺序 ; 还 有 一 些 人 则 喜欢 “年 -月 -日 ”的 顺序 。 有 了 时， 
即使 统一 了 年 、 月 、 日 的 排序 ， 表示 月 份 的 方法 也 可 能 有 很 多 变种 。 比 如 ， 月份 可 以 用 完整 的 单 
词 表示 (January )、 单 词 简写 (Jan )、 数 字 ( 1 ) 或 者 填充 零 后 的 数字 (01 )。 对 于 日 而 言 ， 也 有 
类 似 的 变种 。 比 如 ， 可 以 对 其 填充 零 (04 )、 用 序数 表示 ( 4th ) 或 者 直接 用 数字 表示 (4 )。 对 于 
年 份 而 言 ， 可 以 写 全 年 份 的 4 个 数字 ,也 可 以 仅 保 留 后 两 位 。 另 外 , 年 、 月 、 日 之 间 可 以 用 多 种 
方式 连接 ， 比 如 空格 、 逗 号 、 点 、 和 斜 线 ， 甚 至 什么 符号 都 不 用 ! 如 果 组 合 这 些 不 同 的 表示 方式 ， 
至 少 能 得 到 数 十 种 方式 表示 同一 个 日 期 数据 。 

因此 ， 如 果 有 一 种 算法 能 够 将 这 些 各 种 各 样 的 日 期 字符 串 转 换 成 标准 的 ISO-8601 格式 ( 例 
如 2019-02-05 ) 就 再 好 不 过 了 。 当 然 , 用 传统 的 非 机 融 学 习 程 序 也 能 够 解决 这 个 问题 ， 但 考虑 到 
大 量 可 能 的 表示 格式 ， 对 应 的 代码 可 能 会 非常 腾 肿 〈 至少 上 百 行 代码 )， 实 现 起 来 也 会 非常 费时 
费力 。 那么 就 试 着 用 深度 学 习 的 方法 来 解决 这 个 问题 。 具体 而 言 , 我 们 将 采用 基于 LSTM 和 注意 















































GD 参见 Alex Graves 的 文章 “Generating Sequences with Recurrent Neural Networks”。 男 一 篇 相关 文章 是 Dzmitry 
Bahdanau、Kyunghyun Cho 和 Yoshua Bengio 发 表 的 “Neural Machine Translation by Jointly Learning to Align and 
Translate 。 
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力 机 制 的 编码 融 - 解 码 需 (encoder-decoder ) 架构 。 
为 了 清晰 地 定义 本 示例 的 问题 范畴 ， 让 我 们 从 以 下 示例 中 的 18 个 常见 日 期 格式 开始 。 注意， 
这 些 只 不 过 是 同一 日 期 的 不 同 格式 罢了 。 








"23Uan201D"， "012315"， "01/23/15", "1/23/15", 
OL/23/20L5™, 11521205” 
"JAN 3 19" Jan 23, 0 35” 
"O01lSQO LL 23 W201l3. L223 T2050L23"s V20L15701/23", 
"2015-01-23", "2015-1-23" 


当然 ， 除 此 之 外 ， 还 有 其 他 日 期 格式 。" 但 只 要 做 好 模型 训练 和 推断 的 基础 工作 ， 支 持 这 些 
额外 的 格式 不 过 是 重复 的 体力 劳动 罢了 。 你 将 有 机 会 在 本 章 末 尾 的 练习 (3) 中 试验 添加 更 多 的 输入 
格式 。 

站 和 针 ， 试 看 运行 一 下 示例 程序 。 束 像 之 前 的 情感 分 析 示 例 一 样 ， 该 示例 既 包 含 训练 部 分 ,也 
包含 推 汤 部 分 。 训 练 部 分 会 在 后 端 环 境 中 用 二 s-node 或 ts-node-gpu 模块 完成 。 使 用 下 面 的 命令 
启动 训练 。 

git clone https://github.com/tensorflow/tfjs-examples.git 


cd tfjs-examples/sentiment 
yarn 




















yarn train 


如 果 要 使 用 启用 了 CUDA 的 GPU 进行 训练 ， 运 行 yarn train 时 加 上 --gpu 选项 。 


yarn train --gpu 


上 默认 条 件 下 ,训练 过 程 会 持续 两 个 轮 次 。 这 已 足以 将 损失 值 降 至 接近 于 零 , 格式 转换 准确 率 














正确 的 。 这 些 推 上 新 样 例 采集 自 和 训练 集 无 任何 重 县 的 测试 集 。 训 练 好 的 模型 会 被 保存 到 
“disVymodel” 这 一 相对 路 径 下 。 之 后 会 在 基于 浏览 需 的 推 盯 阶 段 用 到 它 。 可 以 用 下 面 的 命令 打开 
推断 用 的 UI。 


yarn watch 


在 弹出 的 Web 页 面 中 ， 可 以 将 日 期 输入 进 “Input Date String” 文 本 框 ， 单 击 “Enter” 按 钮 ， 
然后 观察 输出 的 日 期 字符 串 如 何 随 之 改变 。 男 外 ，UTI 中 还 会 显示 一 个 热 图 ， 热 图 会 用 颜色 的 深 
浅 表示 转换 过 程 中 的 注意 力矩 阵 ( 见 图 9-9 )。 注 意 力 和 矩阵 包含 一 些 对 于 seq2seq 模型 至 关 重 要 的 
有 趣 信 息 。 它 对 人 类 而 言 可 读 性 很 强 。 因 此 ， 你 应 该 通过 输入 不 同 的 日 期 ， 尺 可 能 地 熟悉 它 。 














OQ 你 可 能 已 经 注意 到 ， 此 处 展示 的 日 期 格式 并 没有 任何 皮 义 。 如 果 数 据 中 同时 含有 “MM/DD/YYYY” 和 
“DD/MM/AYYYY ”两 种 格式 ,那么 这 些 数据 就 存在 歧义 。 也 就 是 说 ， 无 法 确定 日 期 背后 的 真实 含义 。 比 如 ， 既 可 
以 将 “0102/2019” 理 解 为 2019 年 1 月 2 日 ,也 可 以 将 其 理解 为 2019 年 2 月 1 日 。 
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Input date string: Output date string: 
JUL 18, 2034 12034-07-18 
Press Enter to Refresh Conversion 
Attention matrix: 
(1) "J"J Value 
(2) "U"- | 下 一 | 0.8 
(3) "L"- 
(6) "8" Ei 0.4 
aa 
Bl mv 0.2 
(9) "2"] 
(10) "0" -| 
名 外 i 车 外 上 地 名 
Dutput characters 加 








图 9-9 ”运行 中 的 、 基 于 注意 力 机 制 的 日 期 转换 编码 各 -解码 各。 右 下 角 展 示 的 是 文本 框 中 的 输入 
和 其 转换 结果 所 对 应 的 注意 力矩 阵 


以 图 9-9 中 展示 的 结果 为 例 。 模 型 正确 地 将 输入 ("JUL 18，2034" ) 转换 成 了 输出 
("2034-07-18" )。 注 意 力矩 阵 中 的 行 对 应 输入 日 期 中 的 字符 ("J"、"U"、"L"、" "等 ), 而 
列 则 对 应 输出 日 期 中 的 字符 ("2"、"0"、"3" 等 )。 因此 ,注意 力矩 阵 中 的 各 个 元 素 值 分 别 表示 
模型 生成 输出 中 的 字符 时 ， 放 在 其 对 应 的 输入 字符 上 的 注意 力 是 多 少 。 元 素 值 越 高 ， 倾 注 在 该 字 
符 上 的 注意 力 就 越 多 。 例 如 ， 观 察 注意 力矩 阵 的 最 后 一 行 的 第 四 列 ， 即 对 应 最 后 一 个 输入 字符 
("4" ) 和 第 四 个 输出 字符 ("4" ) 的 元 素 值 。 可 以 从 颜色 的 深度 看 出 ， 该 值 相对 较 高 。 这 是 符合 
常理 的 ， 因 为 输出 的 年 份 部 分 的 最 后 一 个 数字 确实 应 该 主要 依赖 于 输入 字符 串 中 年 份 部 分 的 最 后 
一 个 数字 。 与 此 形成 鲜明 对 比 的 是 ， 该 列 中 的 其 他 元 素 值 都 相对 较 低 ， 这 意味 着 生成 输出 字符 串 
中 的 字符 "4" 时 ， 并 没有 使 用 多 少 来 自 输 入 字符 串 中 其 他 字符 的 信息 。 输 出 字符 串 中 的 月 份 和 日 
部 分 也 表现 出 类 似 的 模式 。 你 可 以 探索 一 些 其 他 的 日 期 格式 ， 并 观察 注意 力矩 阵 如 何 随 之 改变 。 


9.3.2 ”编码 器 -解码 器 染 构 和 注意 力 机 制 


本 将 帮助 你 直观 地 理解 编码 需 - 解 码 需 架构 是 如 何 解决 seq2seq 问题 的 ,以 及 注意 力 机 制 在 
此 扮演 的 角色 。 随后 的 一 节 将 深入 探讨 注意 力 机 制 的 细节 和 相关 代码 。 我 们 至 此 所 见 的 所 有 神经 
网 络 输出 都 是 单个 结果 。 例 如 ， 对 于 回归 模型 而 言 ， 输 出 仅 是 一 个 数字 ; 对 于 分 类 模型 而 言 ， 输 
出 是 几 个 可 能 类 别 的 概率 值 。 但 是 上 文 提 到 的 日 期 转换 问题 与 它们 都 不 相同 。 它 预测 的 并 不 是 单 
个 结果 ， 而 是 大 量 结果 组 成 的 序列 。 具 体 而 言 ， 它 必须 正好 预测 出 10 个 符合 ISO-8601 日 期 格式 
的 字符 。 要 如 何 用 神经 网 络 实现 这 一 点 呢 ? 

答案 是 创建 一 个 能 输出 整个 结果 序列 的 模型 。 具体 而 言 , 因为 输出 序列 中 的 元 素 都 是 来 自 同 
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一 个 “字母 表 ” 的 离散 符号 ， 并 正好 只 有 11 个 〈0~9， 加 上 上 连 字 符 )， 因 此 可 以 将 模型 输出 的 张 
量 设 为 一 个 三 维 形状 [numExamples，OUTPUT_LENGTH，OUTPUT_VOCAB_SIZE]。 其 中 第 一 
个 维度 ( numExamples ) 对 应 的 是 传统 的 样 例 维度 ， 用 于 批 次 处 理 数 据 。 这 点 和 本 书 介绍 的 其 
他 模型 是 一 样 的 。oUTPUT_LENGTH 的 值 为 10， 即 ISO-8601 格式 的 日 期 字符 串 的 固定 长 度 。 
OUTPUT_VOCAB_SIZE 是 输出 的 单词 表 (或 者 更 准确 地 说 ,“ 字 母 表 ”) 的 尺寸 。 它 包括 0~9 的 数 
字 、 连 字符 (- )， 以 及 一 些 其 他 的 有 特殊 含义 的 字符 ， 稍 后 将 进一步 讨论 它们 。 

这 就 是 模型 的 输出 部 分 。 那 么 模型 的 输入 又 是 怎样 的 呢 ? 事实 上 , 模型 有 两 个 输入 ,而 不 是 
一 个 。 如 图 9-10 所 示 ， 可 以 将 模型 大 致 分 为 两 个 部 分 : 编码 器 (encoder ) 和 解码 器 ( decoder )。 
模型 的 第 一 个 输入 会 进入 编码 需 部 分 。 它 是 输入 的 日 期 字符 串 本 刁 , 表示 为 字符 索引 组 成 的 序列 ， 
其 形状 为 [numExamples，INPUT_LENGTH]。 其 中 INPUT_LENCTH 是 模型 支持 的 输入 日 期 格式 
中 的 最 大 长 度 〈 本 示例 中 为 12 )。 如 有 果实 际 输入 小 于 该 长 度 ， 那么 会 在 输入 的 最 后 填充 去。 第 二 
个 输入 会 传人 模型 的 解码 天 部 分 。 它 是 将 转换 结果 右 移 一 个 采样 点 后 的 张 量 ， 其 形状 为 
[numExamples, OUTPUT LENGTH ] 。 

日 慢 , 第 一 个 输入 好 民 ， 因 为 它 就 是 输入 的 日 期 字符 串 , 但 是 为 什么 模型 要 将 转换 结果 作为 
第 二 个 输入 呢 ?” 它 难道 不 是 模型 的 输出 吗 ?” 这 个 问题 的 关键 在 于 对 转换 结果 的 右 移 上 。 注意 , 第 
二 个 输出 并 不 是 简单 的 转换 结果 , 而 是 延迟 后 的 转换 结果 。 延迟 的 幅度 正好 是 一 个 采样 点 。 例如 ， 
如 果 训 练 时 ,目标 转换 结果 是 "2034-07-18"， 那么 模型 的 第 二 个 输入 就 是 "<sT>2034-07-1"。 
其 中 <sT> 是 一 个 特殊 的 表示 序列 开头 的 符号 。 该 输入 能 让 解码 各 知 道 至 此 已 经 生成 的 输入 序列 。 
也 就 是 说 ， 它 能 够 让 解码 疾 记 录 当 前 处 于 日 期 转换 过 程 的 哪个 环 市 。 

这 一 转换 过 程 就 和 人 类 说 话 的 原理 类 似 。 当 人 类 想 通 过 垣 言 表达 某 个 想法 时 ,大 脑 会 尝试 做 
两 件 事 情 : 一 是 具象 化 概念 本 喘 ， 二 是 回忆 至 今 所 说 过 的 话 。 后 者 对 于 确保 发 言 的 目 洽 、 完 整 和 
不 重复 至 关 重 要 。 模 型 的 工作 原理 也 是 如 此 : 为 了 生成 输出 中 每 个 字符 ， 它 必须 使 用 两 个 来 源 的 
信息 : 一 个 是 输入 的 日 期 字符 串 ， 一 个 是 至 此 已 生成 的 输出 字符 。 

右 移 之 后 的 转换 结果 在 训练 阶段 是 可 以 正常 使 用 的 ， 因 为 我 们 知道 正确 的 转换 结 采 是 什么 。 
但 是 它 在 推断 阶段 同样 管用 吗 ? 图 9-10 回答 了 这 个 问题 。 我 们 可 以 逐个 生成 需要 输出 的 字符 。™ 
如 图 9-10a 所 示 ， 首 先 在 解码 器 输入 的 头 部 插入 一 个 sT 符号 。 通 过 一 次 推 新 〈 即 一 次 Model. 
predict () 调 用 )， 可 以 获得 一 个 新 的 输出 项 〈 即 图 中 的 "2" )。 这 个 新 的 输出 项 随后 义 被 添加 到 
解码 覃 输入 的 尾部 。 接 下 来 又 开启 了 下 一 轮 的 转换 。 解码 副 看 到 刚 生 成 的 字符 "2" ( 见 图 9-10b )， 
又 触发 一 次 Model .predict () 调 用 , 同时 生成 一 个 新 的 输出 字符 ("0" )。 然后 该 字符 又 会 被 沐 
加 到 解码 带 输 入 的 尾部 。 







































































Q 实现 这 个 逐步 转换 的 算法 的 代码 位 于 date-conversion-attention/model.js 文件 的 runsed2SeaInference () 国 数 中 。 
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a. 转换 的 第 一 步 b. 转换 的 第 二 步 
解码 强 输 出 





编码 强 输 入 解码 如 输入 编码 强 输 入 解码 强 输 入 








图 9-10 编码 右 - 解 码 可 染 构 转换 日 期 过 程 的 示意 图 。sT 是 一 个 特殊 的 符号 ， 它 代表 解码 天 输入 
和 输出 的 开头 部 分 。 图 9-10a 和 图 9-10b 分 别 展示 了 转换 过 程 的 前 两 个 步 纤 。 通 过 第 一 
个 步骤 ， 模 型 生成 输出 的 第 一 个 字符 ("2" )。 通 过 第 二 个 步 又 ， 第 二 个 字符 ("0" ) 也 
被 生成 。 后 续 步 又 所 遭 循 的 模式 是 一 样 的 ， 在 此 不 再 缆 述 


程序 会 不 断 重 复 上 述 过 程 ， 直 到 输出 的 长 度 达 到 预期 长 度 ( 此 处 是 10 )。 注意 ， 最 后 一 次 输 
出 并 不 包含 ST 符号， 因此 可 以 直接 将 它 作 为 整个 算法 的 最 终 输 出 。 


注意 力 机 制 的 作用 

注意 力 机 制 的 作用 是 使 模型 输出 中 的 每 个 字符 都 能 够 正确 地 “将 注意 力 放 到 ”输入 序列 中 对 
应 部 位 的 字符 上 。"2034-07-18" 中 的 "7" 部 分 的 注意 力 应 该 在 输入 的 日 期 字符 串 的 "JUL" 部 分 
上 上 。 这 点 和 人 类 的 语言 也 是 类 似 的 。 例 如 ， 当 我 们 将 一 句 话 从 A 语言 翻译 成 B 语言 时 ， 输 出 名 
子 中 的 每 个 单词 通常 仅 由 原 句 子 中 的 一 小 部 分 单词 决定 。 

这 一 点 可 能 看 起 来 非常 浅显 ， 因 为 很 难 想象 还 有 什么 更 好 的 翻译 方法 。 但 在 2014 一 2015 年 
左右 , 也 就 是 深度 学 习 研 究 者 刚 引 入 注意 力 机 制 时 ,这 是 深度 学 习 领 域 的 一 个 巨大 理论 突破 。 要 
理解 这 背后 的 原因 ， 先 仔细 观察 图 9-10a 展示 的 连接 编码 需 边 框 和 解码 需 边 框 的 箭头 。 该 箭头 表 
示 将 编码 絮 中 LSTM 的 上 一 个 输出 传人 模型 的 解码 器 部 分 ， 作 为 后 者 的 初始 状态 。 之 前 讲 过 ， 
RNN 的 初始 状态 一 般 全 部 是 委 〈 比如 9.1.2 节 使 用 的 simpleRNN )。 但 在 TensorFlow.js 中 ， 可 以 
将 RNN 的 初始 状态 设置 为 任何 形状 符合 要 求 的 张 量 值 。 因 此 ， 可 以 利用 这 个 机 制 将 上 游 信 息 传 
递 到 LSTM。 对 于 本 例 而 言 ， 编 码 器 到 解码 融 之 间 的 连接 通过 这 种 机 制 ， 使 解码 需 的 LSTM 能 够 
获取 编码 后 的 输入 序列 。 

然而 ， 如 此 看 来 ,初始 状态 就 是 一 个 包含 整个 输入 序列 的 回 量 。 事 实证 明 这 种 表示 对 解 但 天 
而 言 过 于 浓缩 ,解码 器 很 难 解读 这 种 表示 形式 。 对 于 那些 较 长 的 或 者 更 复杂 的 序列 ,情况 更 是 如 
此 (比如 机 可 翻译 问题 中 常见 的 句子 )。 这 正 是 注意 力 机 制 的 作用 所 在 。 

注意 力 机 制 能 够 开 折 解码 需 的 “视野 "。 它 使 用 的 不 只 是 编码 器 的 最 终 输 出 ， 还 包含 编码 器 
所 有 输出 的 序列 。 在 转换 的 每 一 步 中 , 注意 力 机 制 会 将 处 理 的 “注意 力 ” 放 到 编码 需 输 出 序列 中 
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特定 的 采样 点 上 ， 从 而 决定 应 该 生成 的 输出 字符 是 什么 。 例 如 ， 第 一 个 转换 步骤 的 注意 力 可 能 主 
要 在 前 两 个 输入 字符 上 ， 而 第 二 个 转换 步 又 的 注意 力 则 可 能 主要 在 第 二 个 和 第 三 个 输入 字符 上 
(注意 力矩 阵 的 具体 例子 参见 图 9-10 )。 就 和 神经 网 络 的 权重 参数 一 样 , 采用 注意 力 机 制 的 模型 也 
是 通过 训练 学 习 如 何 分 配 注意 力 的 , 而 不 是 便 编码 分 配 注意 力 的 策略 。 这 使 得 模型 非常 灵活 且 强 
大 , 因为 它 知道 如 何 根据 输入 序列 本 身 和 当前 已 生成 的 输出 序列 的 状态 , 来 学 习 应 该 如 何 对 输入 
序列 的 不 同 部 分 分 配 注意 力 。 

关于 编码 帮 - 解 码 副 机 制 理论 的 讨论 暂且 告 一 段落 。 接 下 来 让 我 们 揭 开 编码 侣 、 解 公 人 各 和 注 
意 力 机 制 的 神秘 面纱 ,， 看 看 其 痛 后 的 代码 。 如 有 果 之 前 的 理论 读 起 来 有 点 太 抽 象 、 太 模糊 ,那么 请 
继续 阅读 下 一 节 。 我们 将 在 下 一 节 详 解 模 型 的 具体 构造 。 如 果 你 想 更 深入 地 理解 基于 注意 力 机 制 
的 编 但 需 - 解 码 需 架构， 这 将 是 非常 值得 的 。 为 了 辟 励 你 谈 下 去 ， 你 需要 知道 ， 当 前 顶尖 的 机 需 
翻译 模型 背后 的 系统 架构 和 此 处 使 用 的 是 一 样 的 。 比 如 谷歌 的 神经 机 需 翻 译 ( Google Neural 
Machine Translation, GNMT ) 系统 就 是 如 此 。 当 然 ， 与 此 处 简单 的 数据 转换 模型 相 比 ， 这 些 生产 
级 别 的 模型 使 用 的 LSTM 层 和 训练 数据 会 更 多 。 


9.3.3 ”详解 基于 注意 力 机 制 的 编码 器 -解码 器 模型 


图 9-11 进一步 描述 了 图 9-10 中 各 边框 的 内 部 结构 。 建议 将 它 和 创建 模型 的 代码 ( date-conversion- 
attention/modeljs 文件 中 的 createModel () 限 数 ) 结 合 起 来 看 。 接 下 来 将 逐个 讲解 代码 的 重要 部 分 。 
































解码 器 LSTM 层 
的 初始 状态 





图 9-11 详解 基于 注意 力 机 制 的 编码 硕 - 解 码 需 模型 .可 以 将 本 图 看 作 图 9-10 中 描绘 的 
编码 帮 - 解 码 信 染 构 的 拓展 版 ， 因 为 本 图 中 包含 更 多 细 市 
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首先 ， 为 编码 器 和 解码 器 中 的 LSTM 层 和 瞬 人 层 定义 几 个 常量 。 


const embeddingDims = 64; 
const lstmUnits = 64; 


我 们 将 构建 的 模型 有 两 个 输入 ， 因 此 必须 使 用 也 数 式 ( functional ) 的 模型 API， 而 不 是 序列 
( sequential ) API。 下 面 先 来 定义 模型 编码 融和 解码 需 输 入 的 符号 张 量 。 


Const encoderIinput tf.input({shape: [inputLength]}); 


tf.input({shape: [outputLength]}); 





Const decoderIinput 


编码 从 和 解码 瘟 邵 会 给 它们 对 应 的 输入 序列 施加 一 个 髋 入 层 。 对 应 的 编码 癌 代 码 展示 如 下 。 


let encoder = tf.layers.embeddingl(t 
inputDim: inputVocabSize, 
outputDim: embeddingDims, 
inputLength, 








maskZero: true 
}) .apply (encoderIinput).;} 














这 和 在 IMDb 情感 分 析 问 题 中 使 用 的 鹃 入 层 类 似 , 但 它 使 用 的 是 字符 而 不 是 单词 。 这 表明 骸 
入 方法 并 不 只 适用 于 单词 。 事实 上 , 它 的 使 用 范围 非常 灵活 ， 可 以 适用 于 任何 有 限 的 、 离 散 的 集 
合 ， 比 如 音乐 流派 、 新 闻 网 站 上 的 文章 、 某 个 国家 及 地 区 的 飞机 场 分 布 等 。 般 入 层 配置 中 的 
maskZzero: true 告诉 下 游 的 LSTM 要 省 略 抒 值 全 部 为 云 的 采样 点 。 这 可 以 避免 对 已 经 牛 成 完 
毕 的 序列 进行 不 必要 的 计算 。 

LSTM 是 一 种 本 书 尚 未 具体 讨论 过 的 RNN 类 型 。 此 处 还 不 会 深入 讲解 其 内 部 结构 ， 目 前 知 
道 它 的 结构 和 GRU ( 见 图 9-4 ) 类 似 束 足够 卫 ， 因 为 它们 都 通过 在 多 个 采样 点 间 保 持 状 态 解决 了 
梯度 消失 问题 。Chris Olah 的 博客 文 曹 “Understanding LSTM Networks” 非 常 好 地 概览 并 可 视 化 
了 LSTM 的 绪 构 和 工作 机 制 。 下 面 的 代码 给 字符 般 入 回 量 加 上 了 LSTM 机 制 。 


encoder = tf.layers.lstm(t 
units: lstmUnits, 

















returnSequences: true 
}) .apply (encoder); 


配置 中 的 returnSequences: true 使 LSTM 的 最 终 输出 变 为 输出 向 量 组 成 的 序列 ， 而 不 
是 默认 的 单个 输出 辐 量 ( 就 像 之 前 的 气温 预测 模型 和 情感 分 析 模 型 所 使 用 的 )。 这 一 步 对 于 模型 
下 游 的 注意 力 机 制 至 关 重 要 。 

编 公 器 LSTM 的 CetLastTimestepLayer 层 是 日 定义 的 。 








const encoderLast = new GetLastTimestepLayer(t 
name: 'encoderLast' 
}) .apply (encoder); 


它 的 作用 仅 古 沿 时 间 维 度 ( 即 第 二 维度 ) 将 时 间 序 列 张 量 进行 切 分 , 并 输出 最 后 采样 点 对 应 
的 结果 。 这 样 我 们 就 可 以 将 编码 右 LSTM 的 最 终 状态 作为 初始 状态 输入 到 解码 需 的 LSTM 中 。 
这 种 连接 方式 是 解码 希 获 得 输入 序列 有 关 信 息 的 方法 之 一 。 图 9-11 中 将 编码 融 方 框 中 的 加 和解 




















284 ”第 9 章 针对 序列 和 文本 的 深度 学 习 


人 码 磊 方 框 中 LSTM 层 相 连 的 箭头 诠释 了 这 一 点 。 
代码 的 解码 大 部 分 首先 使 用 的 也 是 一 个 般 入 层 和 一 个 LSTM 层 , 这 点 和 编码 右 的 拓扑 结构 是 


let decoder = tf.layers.embeddingl(t 











inputDim: outputVocabSize, 
outputDim: embeddingDims, 
inputLength: outputLength, 
maskZero: true 
}) .apply (decoderIinput).; 
decoder = tf.layers.lstm(t{ 
units: lstmUnits, 
returnSequences: true 
}) .apply (decoder, {initialState: [encoderLast, encoderLast]});} 


注意 ,在 以 上 代码 片段 的 最 后 一 行 中 , 编码 需 的 最 终 状 态 是 如 何 被 用 作 解 码 需 的 初始 状态 的 。 
你 可 能 会 好 奇 为 什么 符号 张 量 encoderLast 在 最 后 一 行 代码 中 出 现 了 两 次 , 这 是 因为 LSTM 层 
包含 两 个 状态 。 这 点 和 我 们 之 前 在 simpleRNN 和 GRU 中 所 见 的 单 状 态 结构 是 不 同 的 。 

解码 妖 还 有 另外 一 种 更 强大 的 获取 输入 序列 相关 信息 的 方法 , 这 当然 就 是 注意 力 机 制 。 注意 
力 值 是 编码 器 LSTM 层 和 解码 磊 LSTM 层 输 出 之 间 的 点 积 ( 即 逐 元 素 相 乘 )。 下 面 的 代码 片段 又 
加 上 了 一 个 归 一 化 指数 激活 因数 。 


let attention = tf.layers.dot({axes: [2，2])).applyl([dqaecodqer，encodqer]) : 
attention = tf.layers.activation(t 

















activation: 'softmax', 
name: 'attention' 
}) .apply (attention).; 


编码 右 LSTM 层 输 出 的 形状 为 [null1, 12,，64] ， 其 中 12 是 输入 友 列 的 长 度 ，64 是 LSTM 
层 的 尺寸 。 解 码 右 LSTM 层 输 出 的 形状 为 [null1，10，64]， 其 中 10 是 输出 序列 的 长 度 ，64 
是 LSTM 的 尺寸 。 两 者 之 间 的 点 积 是 沿 着 最 后 一 个 维度 ( 即 LSTM 特征 维度 ) 求 得 的 。 结 果 的 
形状 为 [null1，10，12] (有 即 [null，inputLength，outputLength] )。 归 一 化 指数 聊 数 会 
将 点 积 结 果 转 换 为 概率 值 ， 并 保证 其 值 为 正 ， 和 矩阵 每 列 之 和 为 1。 这 就 是 位 于 模型 核心 的 注意 力 
和 矩阵， 之 前 的 图 9-9 可 视 化 了 和 矩阵 中 的 值 。 

注意 力矩 阵 随 后 会 被 应 用 到 编码 右 LSTM 层 的 序列 输出 上 。 这 就 是 序列 转换 过 程 如 何 学 习 在 
每 一 个 处 理 步 又 中 , 给 (编码 之 后 的 ) 输入 序列 的 不 同 部 分 分 配 注意 力 的 。 注 意 力矩 阵 和 编码 姨 
输出 的 点 积 结 果 叫 作 上 下 文 (context ): 











Const context = tf.layers.dot(t 
axes: [2, 1|],，, 
name: "context' 


}) .apply ([attention, encoderl]).; 


上 上 下文 对 象 的 形状 为 [null,，10，64] ( 即 [null, outputLength, lstmUnits] )。 它 会 
和 解 但 融 输 出 〈 [nul1,， 10，641 ) 拼接 到 一 起 。 因 此 拼接 得 到 的 张 量 形状 为 [nul1，10，1281: 
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const decoderCombinedContext = 


tf.layers.concatenate() .apply ([context, decoderl]|); 
decoderCombinedContext 包含 输入 到 模型 的 最 终 阶 段 ( 即 生 成 要 输出 的 字符 的 阶段 ) 的 
去 征 向 量 
特征 癌 量 。 








输出 的 字符 是 由 MLP 模型 生成 的 ,该 MLP 模型 由 一 个 隐藏 层 和 一 个 使 用 归 一 化 指数 作为 油 
活 函 数 的 输出 层 组 成 。 
let output = tf.layers.timeDistributedl(t 
layer: tf.layers.densel(t{ 
units: lstmUnits, 


activation: 'tanh' 


}) 
}) .apply (decoderCombinedContext).;} 
output = tf.layers.timeDistributedl(t 
layer: tf.layers.densel(t{ 
units: outputVocabSize, 
activation: 'softmax' 
}) 
J).apBly (oubout)y 
得 痊 于 timeDistributed 层 所 有 的 处 理 步 又 使 用 的 MLP 模型 是 相同 的 。 timeDistributed 
层 会 将 一 个 层 作为 输入 ,并 沿 其 输入 的 时 间 维 度 ( 即 第 二 个 维度 ) 针对 每 个 处 理 步骤 调用 它 。 这 
会 将 输入 特征 的 形状 [nu11，10，128] 转 换 为 [nul11，10，13]。 其 中 13 对 应 的 是 ISO-8601 
日 期 格式 中 11 种 可 能 的 学 符 ， 青 加 上 两 个 特殊 字符 ( 即 表示 填充 和 序列 开始 位 置 的 学 符 )。 
准备 好 模型 的 所 有 组 成 部 分 后 , 可 以 将 它们 组 合成 一 个 tf .model 模型 对 象 。 该 对 象 有 两 个 
输入 和 一 个 输出 O 


Const model = tf.modell(t 
inputs: [encoderIinput, decoderIinput], 
outputs: output 

}); 


作为 进入 训练 阶段 之 前 的 准备 ， 此 处 调用 compile() 方 法 为 模型 设置 了 一 个 分 类 交叉 人 函 
数 作 为 损失 函数 。 之 所 以 选择 它 作 为 损失 函数 ,是 因为 日 期 转换 问题 本 质 上 是 一 个 分 类 问题 。 在 
每 一 个 处 理 步 又 中 ， 我 们 是 从 全 部 可 能 的 字符 中 选取 的 字符 。 
model.compilel(t 
loss: 'categoricalCrossentropy', 
optimizer: 'adam' 
上 
在 推断 时 ， 程 序 会 对 模型 的 输出 张 量 进行 argMax () 运 算 ， 以 获得 最 终 输 出 的 字符 。 在 转 
换 流程 的 每 一 步 中 ， 最 终 输 出 的 字符 会 被 奶 加 到 解码 需 输 入 的 尾部 ， 以 便 下 一 个 转换 步骤 使 用 
它 ( 参 见 图 9-11 最 右 侧 的 箭头 )。 正 如 之 前 所 提 到 的 ， 重 复 这 一 流程 ， 最 后 得 到 的 产 出 是 整个 
输出 序列 。 
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9.4 延展 阅读 


口 Chris Olah 的 博文 “Understanding LSTM Networks”。 

口 Chris Olah 和 Shan Carter 的 文 草 “Attention and Augmented Recurrent Neural Networks”。 

口 Andrej Karpathy 的 博文 “The Unreasonable Effectiveness of Recurrent Neural Networks”。 

口 Zafarali Ahmed 的 文 草 “How to Visualize Your Recurrent Neural Network with Attention in 
Keras 。 

口 在 日 期 转换 的 样 例 中 , 我 们 曾 介 绍 过 一 种 基于 argMax () 的 解码 技巧 。 这 种 技巧 通常 叫 作 
信心 解码 ( greedy decoding ) 算法 , 因为 它 在 每 个 处 理 步 又 提取 出 的 都 古 概 率 最 蜗 的 符号 。 
另 一 种 流行 的 技巧 是 集束 搜索 ( beam-search ) 解码 算法 。 这 种 算法 会 在 更 大 的 搜索 范 轩 
内 观察 可 能 的 输出 序列 ， 由 此 来 决定 最 佳 的 输出 字符 。 该 算法 的 具体 内 容 请 参考 Jason 


Brownlee 的 文章 “How to Implement a Beam Search Decoder for Natural Language Processing”。 














口 Stephan Raaijmakers 的 著作 Deep Learnine for Natural Laneguage Processine，Manning 出 版 
社 即将 出 版 。 


9.5 练习 


(1) 尝试 修改 各 种 非 序 列 数据 中 数据 元 素 的 顺序 。 确 认 除 了 随机 权重 参数 初始 化 造成 的 随机 
波动 外 ， 这 些 顺 序 的 改变 不 会 影响 模型 的 损失 值 和 度量 指标 值 ( 例如 准确 率 )。 可 以 用 以 下 两 个 
问题 测试 修改 的 效果 。 

a. 在 芒 尾 花 分 类 示例 中 ( 见 第 3 草 )， 通 过 修改 下 面 这 行 代码 (位 于 二 s-examples 代码 仓库 
的 iris/data.js 文件 中 )， 重 新 排列 4 个 数值 特征 的 顺序 〈 花 办 长 、 花 办 宽 、 花 机 长 和 人 花 机 宽 )。 


shuffledData.push(datalindices[i]]); 


具体 而 言 就 是 修改 gatalingdices[i]] 中 4 个 元 系 的 顺序 。 通 过 调用 JavaScript 数组 的 
slice() 和 concat() 方 法 就 可 以 做 到 这 一 点 。 所 有 样 例 中 的 特征 顺序 都 应 该 根据 相同 的 规则 进 
行 改变 ， 因 此 可 以 写 一 个 JavaScript 哨 数 来 统一 执行 重新 排序 的 操作 。 

b. 在 为 耶 拿 气温 预测 问题 创建 的 线性 回归 模型 和 MLP 模型 中 ， 尝 试 重新 排序 240 个 采样 点 
和 14 个 数值 特征 (不同 气 象 测量 仪 妖 记录 的 结果 )。 具 体 而 言 ， 可 以 修改 jena-weather/data.js 文 
件 中 的 nextBatchFn () 函数 来 实现 这 一 点 。 下 面 这 行 代码 是 最 容 多 实现 重新 排序 的 地 方 。 


samples.set(value, J, exampleRow, exampleCol++); 


可 以 用 一 个 对 固定 长 度数 组 进行 重新 排列 的 函数 将 索引 exampleRow 映射 到 新 的 值 ， 并 且 
以 类 似 的 方法 将 exampleCol 也 映射 到 新 的 值 。 

(2) 我 们 为 IMDb 情感 分 析 构 建 的 1D convnet 仅 有 一 个 conv1d 层 ( 见 代码 清单 9-8 )。 就 像 本 
章 所 讨论 的 ， 如 果 在 此 基础 上 堆 二 更 多 的 convld 屋 ， 可 以 得 到 一 个 更 具 深 度 的 1D convnet， 从 
而 可 以 捕 换 到 相距 更 远 的 单词 的 顺序 信息 。 在 本 练习 中 ， 你 需要 答 试 修改 sentiment/train.js 文件 
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中 的 puilgMogdel () 函数 。 目标 是 在 现 有 convld 层 的 基础 上 再 添加 一 个 convld 层 ,然后 重新 训 
练 模型 ， 观 察 模 型 的 分 类 准确 率 是 否 有 所 提升 。 新 的 conv1d 层 使 用 的 过 滤 融 和 卷 积 核 太 寸 可 以 
和 现 有 的 相同 。 另 外 ,观察 修改 后 模型 的 拓扑 结构 报告 中 的 输出 形状 信息 。 硝 保 你 已 理解 filters 
和 KernelSize 参数 是 如 何 导 致 新 的 convld 层 的 输出 形状 的 。 

(3) 在 本 和 草 的 日 期 格式 转换 示例 中 ， 答 试 再 添加 几 个 输入 日 期 格式 。 下 面 列 出 了 一 些 可 选 的 
新 格式 。 它 们 的 编程 难度 按 顺 序 递增 。 当 然 ， 你 也 可 以 使 用 自己 的 日 期 格式 。 

a. YYYYMMM-DD 格式 : 例如 ,“2012-MAR-08” 或 “2012-MAR-18”。 给 表示 日 的 数字 填 
充 堆 和 不 填充 零 (12/03/2015 ) 的 两 种 情况 可 以 看 作 两 种 格式 。 然 而 ， 无 论 是否 填 充 雪 ， 格 式 的 
最 大 长 度 都 小 于 12， 并 且 所 有 可 能 的 字符 都 已 经 在 〈date-conversion-attention/date format.js 文件 
中 的 ) INPUT_VOCAB 变量 里 定义 好 了 。 因 此 ， 唯 一 需要 做 的 就 是 给 该 文件 加 上 一 两 个 吨 数 。 这 
些 羡 数 可 以 按照 现 有 羡 数 ， 例 如 qateTupleToMMMSpaceDDSpaceYY () 的 实现 方法 来 编写 。 记 
住 ， 还 要 将 这 些 新 加 的 函数 放置 到 文件 中 的 INPUT_FNS 数组 里 ， 这 样 它们 才 会 被 纳入 训练 流程 
中 。 作 为 最 佳 实 践 ， 你 应 该 为 新 写 的 日 期 格式 函数 加 上 单元 测试 。 单 元 测试 文件 位 于 
date-conversion-attention/date format test.]S。 

b. 一 个 用 英语 序数 表示 日 期 中 的 日 部 分 的 格式 ， 例 如 “Mar 8th, 2012”。 注 章 ， 该 格式 和 已 
有 的 daateTupleToMMMSpaceDDCommaSpaceYYYY () 格 式 几 乎 是 一 样 的 。 唯 一 的 区 别 在 于 ， 日 
部 分 加 上 了 英语 序数 的 后 级 ("st"、"ng" 和 "th" )。 新 的 函数 中 应 该 加 上 根据 日 部 分 的 值 自动 
决定 该 使 用 什么 后 缀 的 逻辑 。 另 外 ， 还 必须 增加 date_format test.js 文件 中 的 INPUT_LENGTH 常 
量 的 值 。 这 是 因为 日 期 字符 串 可 能 的 最 大 长 度 已 超出 了 当前 的 值 ， 即 12。 除 此 之 外 ,， 字母" 
和 字母 "n "需要 被 添加 到 INPUT_VOCAB 中 。 这 是 因为 现 有 的 3 个 字母 组 成 的 月 份 字符 串 中 并 不 
包含 这 些 新 字母 。 

c. 最 后 尝试 使 用 一 个 包含 月 份 的 喘 语 全 称 的 日 期 格式 ， 例 如 “March 8th, 2012”。 输 入 日 期 字 


ww 


符 串 的 最 大 可 能 长 度 是 多 少 ?” 这 次 应 该 如 何 修改 date_format.js 文 件 中 的 INPUT_VocAB 变量 呢 ? 












































9.6 ”小结 


口 依 徘 其 提取 和 学 习 事 物 中 序列 顺序 的 能 力 ，RNN 在 处 理 涉及 序列 数据 的 任务 时 ， 其 性 能 
要 优 于 前 僻 模 型 (例如 MLP 模型 ) 我 们 在 用 simpleRNN 和 GRU 解决 气温 预测 问题 时 验 
证 了 这 一 点 。 

口 TensorFlow.js 中 有 3 种 类 型 的 RNN 层 : simpleRNN、GRU 和 LSTM。 相 较 于 simpleRNN， 
后 两 种 RNN 类 型 要 更 为 高 级 , 因 其 更 为 复杂 的 内 部 结构 允许 它们 在 多 个 处 理 步骤 中 保持 
同一 个 记忆 状态 。 这 一 特性 解决 了 梯度 消失 问题 。GRU 在 算 力 要 求 上 要 比 LSTM 小 。 对 
于 绝 大 部 分 实际 问题 而 言 ， 应 该 优先 使 用 GRU 和 LSTM。 

口 当 为 文本 相关 任务 构建 神经 网 络 时 ， 需 要 先 将 文本 输入 表示 为 数字 癌 量 。 这 一 过 程 叫 作 
问 量 化 。one-hot 编码 、multi-hot 编码 ， 以 及 更 强大 的 词 般 和 方法 是 最 背 用 的 文本 回 量 化 
pa 
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口 在 词 伐 入 中 ， 每 个 单词 会 被 表示 为 一 个 不 稀 踊 的 问 量 。 并 且 和 神经 网 络 中 的 其 他 权重 参 
数 一 样 , 回 量 中 的 元 素 值 也 是 通过 反 回 传播 习 得 的 。TensorFlow.js 人 负 届 进行 航 入 癌 量 化 的 
了 疯 数 是 tf. layers.embedding()。 

口 seq2seq 问题 和 基于 序列 的 回归 和 分 类 问题 不 同 ， 因 为 前 者 的 输出 是 一 个 新 的 序列 。 可 以 
使 用 RNN (并 结合 其 他 层 类 型 ) 构建 编码 右 - 解 码 帮 架构 来 解决 seq2seq 问题 。 

口 在 seq2seq 问题 中 , 注意 力 机 制 使 输出 序列 的 不 同 部 分 能 够 选择 性 地 将 注意 力 放 在 输入 序 
列 的 特定 部 分 上 。 本 和 草 展 示 了 如 何 训 练 一 个 基于 注意 力 机 制 的 编码 天- 解码 全 模型 ， 同 时 
还 展示 了 如 何 用 该 模型 解决 一 个 容 单 的 日 期 格式 转换 问题 ， 以 及 如 何 可 视 化 推断 阶段 的 
注 蕊 力矩 阵 。 

















本 章 要 点 

口 什么 是 生成 式 闪 上 度 学 习 ， 它 有 哪些 应 用 ， 以 及 与 我 们 至 今 所 见 的 次 度 学 习 任 务 有 哪些 
不 同 。 

口 如 何 用 RNN 生成 文本 。 

口 什么 是 潜在 空间 (latent space )， 并 以 变 分 目 编 但 希 为 例 ， 诠 释 它 为 何 是 生成 新 图 像 的 
基础 © 

口 生成 式 对 抗 网 络 的 基础 知识 。 





生成 以 假 乱 真 的 图 像 、 音 频 和 文本 是 深度 神经 网 络 最 令 人 印象 次 刻 的 一 些 应 用 。 当 下 ， 深 度 
神经 网 络 已 经 能 够 创建 一 些 非 常 逼 真 的 人 脸 图 像 ”、 合成 听 起 来 自然 流畅 的 语音 ”,， 以 及 编写 令 人 
信服 且 自 洽 的 文本 ”。 这 还 只 是 它 众 多 成 果 中 的 一 小 部 分 。 这 样 的 生成 式 模型 ( generative model ) 
有 很 多 用 途 , 包括 辅助 艺术 创作 、 基 于 一 定 条 件 修改 现 有 的 内 容 ， 以 及 增强 现 有 的 数据 集 来 文 持 
其 他 深度 学 习 任 务 。” 

除了 实际 应 用 价值 , 例如 为 购买 化 妆 品 的 顾客 在 目 拍 照 上 添加 试 妆 效 采 , 生成 式 模 型 还 有 很 
高 的 理论 人 研 究 价 值 。 生 成 式 模型 和 判别 式 模型 (discriminative model ) 是 两 种 截然 不 同 的 机 融和 学 
习 模 型 。 本 书 至 此 介绍 的 所 有 模型 都 属于 判别 式 模型 。 这 类 模型 的 目标 是 将 输入 映射 到 离散 的 或 
者 连续 的 什 。 这 一 过 程 并 不 关心 输入 是 如 何 产生 的 。 我 们 之 前 接触 过 的 分 类 融 ,， 例 如 房价 预测 模 
型 、 钓 鱼网 站 检测 模型 、 意 尾 花 分 类 模型 、MNIST 手写 数字 分 类 模型 和 话音 口令 识别 模型 都 属 
于 这 个 类 别 。 和 判别 式 模 型 不 同 ,生成 式 模 型 的 设计 是 为 了 在 数学 上 模仿 不 同类 别 样 例 的 生成 过 
程 。 然而, 一 旦 生成 式 模 型 习 得 了 如 何 生 成 样 例 ， 它 也 可 以 执行 判别 式 任务 。 因 此 可 以 说 ， 相 较 
于 判别 式 模型 ， 生 成 式 模型 对 数据 的 理解 要 更 为 透彻 。 























GD 参见 Tero Karras 、Samuli Laine 和 Timo Aila 的 文章 “A Style-Based Generator Architecture for Generative Adversarial 
Networks” 。 

@ 参见 Airon van den Oord 和 Sander Dieleman 的 博文 “WaveNet -A Generative Model for Raw Audio”。 

(3) 参见 Alec Radford、Jeffrey Wu、Dario Amodei 等 人 发 表 于 OpenAI 网 站 的 博文 “Better Language Models and Their 
Implications” 。 





(4 参见 Antreas Antoniou、Amos Storkey 和 Harrison Edwards 的 文章 “Data Augmentation Generative Adversarial Networks”。 
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本 章 将 介绍 针对 文本 和 图 像 的 次 度 生成 式 模型 的 基础 知识 。 经 过 本 章 的 学 习 , 你 会 理解 各 种 
生成 式 模 型 背后 的 思想 。 这 些 模型 包括 基于 RNN 的 语言 模型 、 面 向 图 像 的 自动 编码 器 ， 以 及 生 
成 式 对 抗 网 络 。 同 时 , 你 还 会 学 习 如 何在 TensorFlow.js 中 实现 这 些 模型 ,并 将 其 应 用 到 自己 的 数 
据 集 上 。 


10.1 用 LSTM 生成 文本 


接 下 来 从 生成 文本 开始 。 本 市 将 沿用 上 一 革 介 绍 过 的 RNN 来 说 明生 成 文本 的 过 程 。 尽 管 此 
处 生成 的 是 文本 , 但 其 表 后 使 用 的 技巧 同样 适用 于 生成 其 他 类 型 的 序列 数据 。 其 中 一 个 例子 是 说 
曲 ， 只 要 能 够 以 合适 的 方式 表示 音符 ， 并 获得 足够 大 的 数据 集 用 于 训练 即 可 。 ”类 似 的 概念 还 可 
以 应 用 到 生成 笔画 上 ， 比 如 生成 好 看 的 绘画 作品 ”， 甚 至 是 通 真 的 汉字 ”。 


10.1.1 下 个 字符 预测 器 : 一 种 简单 的 文本 生成 方法 


先 来 定义 文本 生成 任务 。 假设 已 有 数量 可 观 ( 至 少 几 MB ) 的 文本 数据 作为 训练 过 程 的 输入 ， 
比如 莎士比亚 作品 数据 集 ( 可 以 将 其 看 作 一 个 相当 长 的 学 符 串 )。 此 处 的 目标 是 生成 尽 可 能 和 原 
文 相像 的 新 文本 。 这 里 的 关键 词 当然 是 “相像 ”*。 就 目前 而 言 ， 先 不 急 着 准确 定义 “相像 ”到 底 
是 什么 意思 。 在 展示 完 文本 的 生成 方法 和 结果 后 ， 它 的 含义 目 然 会 清晰 起 来 。 

思考 一 下 如 何在 深度 学 习 的 框架 下 定义 这 个 问题 。 在 上 一 章 的 日 期 格式 转换 示例 中 , 我 们 见 
识 了 模型 如 何 将 用 户 随 意 输 入 的 日 期 格式 转换 为 定义 明确 的 ISO-8601 标准 日 期 格式 。 然 而 ， 这 
明显 不 适用 于 本 划 的 文本 生成 任务 。 这 是 因为 此 处 既 没 有 明确 的 输入 序列 , 也 无 法 准确 地 定义 输 
出 是 什么 。 本 任务 的 目的 只 是 生成 一 些 “ 相 像 ”的 文本 。 那 么 接 下 来 该 怎么 做 呢 ? 

一 种 解决 方案 是 构建 一 个 能 基于 现 有 字符 序列 来 预测 下 一 个 字符 的 模型 。 这 种 预测 方式 叫 作 
下 个 字符 预测 ( next-character prediction )。 人 例如， 如果 用 莎士比亚 作品 数据 集训 练 一 个 模型 ， 那 
么 训练 完成 后 ,该 模型 应 该 能 针对 输入 的 句子 准确 地 预测 下 一 个 字符 。 比 如 ， 如 果 输 入 是 “Love 
looks not with the eyes, b”， 那 么 模型 预测 的 下 一 个 字符 就 很 大 概率 上 应 该 是 “u" 。 然 而 ， 这 只 是 
生成 了 一 个 字符 。 如 何 用 模型 生成 一 个 字符 序列 呢 ? 方法 很 催 单 ， 只 需要 生成 一 个 和 原 字 符 序 列 
等 长 的 新 序列 。 具 体 而 言 ， 就 是 将 原 输 入 中 的 所 有 字符 全 部 问 左 移动 一 个 字符 位 置 ,舍弃 原本 的 
第 一 个 字符 ， 然 后 将 新 生成 的 字符 (“u”) 拼接 到 字符 序列 的 尾部 。 这 样 ， 我 们 就 得 到 了 模型 的 
一 个 新 输入 序列 ， 即 “ove looks not with the eyes, bu”。 对 于 这 个 新 输入 序列 ， 模 型 很 大 概率 上 会 
预测 学 特 “t” 作 为 下 一 个 字符 。 如 图 10-1 所 示 ， 可 以 不 断 重 复 这 一 流程 ， 下 到 字符 序列 的 长 度 
达到 预期 长 度 。 当 然 ， 模 型 还 需要 一 小 段 文本 来 局 动 整个 流程 。 对 此 ， 随 机 从 文本 数据 集 采 集 一 
小 段 文 本 就 可 以 了 。 




































































中 例如， 可 以 参考 谷歌 Magenta 项 目 中 使 用 的 Performance-RNN 模型 。 
@) 参见 David Ha 和 Douglas Eck 的 Sketch-RNN 项 目 。 
@) 参见 David Ha 的 博文 “Recurrent Net Dreams Up Fake Chinese Characters in Vector Format with TensorFlow”。 
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作为 初始 输入 的 文本 


Lowe looks not with the eyves, b 








了 
| 随机 采样 


基于 RNN 的 下 个 
字符 预测 奉 










概率 值 


el 










ed 随机 采样 


字符 预测 器 





ove looks not with the eyes, bu 








图 10-1 基于 RNN 的 下 个 字符 预测 融 的 工作 原理 示意 岁 。 它 可 以 将 一 小 段 文 本 作为 初 
始 输入 ， 生 成 一 个 文本 序列 。 在 文本 生成 的 每 一 步 中 ，RNN 会 基于 上 一 次 得 
到 的 文本 序列 预测 下 一 个 字符 。 每 一 步 使 用 的 输入 文本 序列 是 通过 舍弃 原本 
的 站 字符 ， 然 后 在 尾部 拼接 上 次 输出 的 字符 得 到 的 。 在 每 一 步 中 ，RNN 模型 
会 输出 字符 集合 中 所 有 可 能 字符 的 概率 值 ， 然 后 对 这 些 字 符 进 行 随机 采样 得 
到 实际 采用 的 下 一 个 字符 


在 这 一 思考 框架 下 , 原本 的 序列 生成 任务 就 变 为 序列 分 类 任务 。 这 个 任务 的 目标 和 我 们 之 前 
在 第 9 章 中 见 过 的 IMDb 情感 分 析 任 务 类 似 , 只 不 过 后 者 是 根据 一 个 定 长 的 输入 序列 进行 二 分 类 
预测 。 文本 生成 模型 的 目标 实质 上 是 一 样 的 , 只 不 过 它 需 要 做 的 是 涉及 N 种 可 能 类 别 的 多 分 类 预 
测 ， 其 中 入 是 字符 集合 的 尺寸 ， 也 就 是 文本 数据 集中 所 有 不 重复 字符 的 数量 。 

这 种 下 个 字符 预测 任务 在 自然 语言 处 理 和 计算 机 科学 领域 不 算 新 概念 了 。 克 劳 德 香农, 信 
息 论 的 竟 基 人 , 曾 在 人 类 身上 做 过 类 似 的 实验 。 他 要 求 参与 实验 的 人 员 根 据 看 到 的 一 段 英文 文本 
预测 文本 的 下 一 个 字符 。" 通 过 这 个 实验 ， 他 最 后 估计 出 了 一 般 英 文 文本 中 每 个 字母 在 特定 语 境 
下 的 平均 不 确定 性 。 这 种 不 确定 性 的 值 约 为 1.3 位 (bit) 的 和 (entropy )。 可 以 将 该 值 理解 为 每 
个 英文 字母 平均 携带 的 信息 量 。 

如 果 完 全 按照 随机 顺序 排列 英文 中 的 26 个 字母 ， 字 母 的 信息 量 会 是 lb(26) = 4.7 位 。 该 结 
要 明显 大 于 上 文 提 到 的 1.3 位 。 这 其 实 是 符合 我 们 的 感性 认识 的 ， 因 为 我 们 知道 英文 字母 不 是 随 
机 排列 的 ,它们 的 排序 会 遵循 一 定 模式 。 具 体 到 单词 层面 , 仅 有 某 些 特定 的 字母 序列 是 正确 的 英 
文 单词 。 抽 象 到 句子 或 段落 层面 ,只 有 某 些 特定 的 单词 排序 符合 英文 语法 。 如 果 我 们 从 文章 的 束 
体 语义 来 看 ， 在 语法 正确 的 句子 中 也 只 有 一 部 分 是 语义 通顺 的 。 

如 果 你 仔细 思考 这 一 点 ,就 会 领悟 本 章 中 的 文本 生成 任务 的 本 质 : 在 上 文 提 到 的 各 个 层面 上 
学 习 文 本 中 蕴藏 的 模式 ,我们 的 模型 所 做 的 正 是 当年 香农 让 参与 实验 的 人 所 做 的 , 即 预测 输入 文 






















































































中 参见 克 劳 德 :香农 于 1951 年 发 表 的 论文 “Prediction and Entropy of Printed English”。 
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本 的 下 一 个 字符 。 接 下 来 看 看 示例 代码 和 它 背 后 的 工作 原理 。 在 我 们 开始 前 , 请 记 住 香农 得 到 的 
1.3 位 这 个 结 东 ， 因 为 稍 后 还 会 继续 探讨 它 的 含义 。 


10.1.2 ”基于 LSTM 的 文本 生成 器 示例 


基于 LSTM 的 文本 生成 需 示 例 位 于 ts-examples 代码 仓库 的 lstm-text-generation 文件 夹 中 。 
该 示例 会 展示 从 模型 训练 到 生成 新 文本 的 全 过 程 。 训 练 和 生成 步骤 都 是 用 JavaScript 和 
TensorFlow.js 编写 的 。 可 以 在 浏览 各 中 或 者 基于 Node.js 的 后 端 环 境 中 运行 该 示例 。 前 者 会 提供 
一 个 耳 观 的 可 交互 界面 ， 但 后 者 的 训练 速度 会 更 快 。 

可 以 用 下 面 的 命令 在 浏览 器 中 启动 示例 程序 。 

git clone https://github.com/tensorflow/tfjs-examples.git 

cd tfjs-examples/lstm-text-generation 

















yarn && yarn watch 


在 弹出 的 页 面 中 , 你 可 以 从 4 个 预 设 的 文本 数据 集中 选 一 个 加 载 , 选中 的 数据 集 将 用 于 模型 
的 训练 。 下面 的 讨论 将 假设 选用 的 是 莎士比亚 作品 数据 集 。 数据 加 载 完 毕 后 , 单 击 “Create Model 
button” 按 钮 创建 数据 集 对 应 的 模型 。 页 面 还 提供 了 一 个 文本 框 用 于 调整 LSTM 的 单元 数 。 单 元 
数 的 默认 值 为 128, 但 还 可 以 尝试 其 他 值 , 例如 64。 如 果 在 文本 框 中 输入 多 个 由 逗号 分 隔 的 数字 
(例如 128,128)， 那 么 模型 会 包含 多 个 堆 闭 在 一 起 的 LSTM 层 。 


如 果 要 用 区 s-node 或 三 s-node-gpu 模 块 在 后 端 环 境 中 进行 训练 , 那 就 用 yarn train 命令 蔡 














换 yarn watch 


yarn train shakespeare \ 
--l]stmLayerSize 128,128 \ 
--epochs 120 \ 
-—-SavepPpath ./my-shakespeare-model 


如 果 你 有 一 个 启用 了 CUDA 的 GPU ,那么 可 以 给 命令 加 上 --gpu 选项 ,这 样 训练 就 会 在 GPU 
上 进行 , 从 而 进一步 提升 训练 速度 。--lstmLayersize 选项 的 作用 就 相当 于 Web 界面 中 用 于 填 
写 LSTM 层 尺寸 的 文本 框 。 上 面 的 命令 会 创建 一 个 堆 姜 两 个 层 的 LSTM 层 模型 ， 每 个 LSTM 层 
各 有 128 个 单元 。 

本 节 中 训练 的 模型 采用 的 是 堆 莅 LSTM 层 的 染 构 。 此 人 处 的 堆 垒 ( stacking ) 是 什么 意思 呢 ? 
它 的 概念 和 MLP 模型 中 堆 著 多 个 密集 层 类 似 。 在 MLP 中 , 堆 钱 密集 层 可 以 增加 模型 的 容量 。 太 
此 类 似 ， 堆 炙 多 个 LSTM 层 会 让 输入 序列 经 过 多 层 seq2se (序列 到 序列 ) 的 表示 转换 ， 下 到 被 
最 后 的 LSTM 层 转 换 成 最 终 输 出 的 回归 值 或 类 别 。 图 10-2 中 的 示意 图 展示 了 这 种 架构。 此 处 有 
一 点 需要 特别 注意 :第 一 个 LSTM 层 的 returnSequence 属性 为 true, 因 此 它 会 生成 一 个 序列 ， 
该 序列 包含 输入 序列 中 每 个 元 系 的 输出 。 这 样 就 可 以 将 一 个 LSTM 的 输出 传人 下 一 个 ， 因 为 
LSTM 层 预期 的 输入 是 一 个 序列 ， 而 不 是 单个 元 素 。 

代码 清单 10-1 包含 构建 下 个 字符 预测 模型 的 代码 。 代 码 实 现 的 是 图 10-2 中 展示 的 架构 〈 摘 
目 lstm-text-generation/model.js 文件 )。 注 意 ， 和 示意 图 不 同 ， 代 码 中 的 模型 输出 端 使 用 的 是 密 



































10.1 用 LSTM 生成 文本 293 


集 层 。 该 密集 层 使 用 归 一 化 指数 函数 作为 激活 函数 。 之 前 介绍 过 ， 归 一 化 指数 函数 会 将 输出 标 
准 化 到 0 ~ 1 的 区 间 ， 并 且 它 们 的 总 和 为 1。 因 此， 最 终 的 密集 层 输 出 表示 的 是 不 重复 字符 的 概 
率 值 。 











LSTM 2 


(returnSequence: false) 


LSTM 1 


(returnSequence: true) 








图 10-2 在 模型 中 堆 徐 多 个 LSTM 层 的 原理 示意 图 。 图 中 有 两 个 LSTM 层 堆 闭 在 一 起 。 
第 一 个 的 returnSequence 属性 为 true， 因此 其 输出 是 一 个 序列 。 这 个 输 
出 会 进一步 传人 到 第 二 个 LSTM 层 中 。 第 二 个 LSTM 层 会 输出 单个 元 素 ， 而 
不 是 序列 。 这 个 输出 的 元 妹 就 是 模型 最 终 的 输出 。 它 可 以 是 回归 任务 中 的 预 
测 值 ， 也 可 以 是 归 一 化 指数 函数 输出 的 概率 组 成 的 数组 


createModel () 图 数 的 lstmLayerSize 参数 负责 调整 LSTM 层 数 和 各 层 的 尺寸 。 
sampleLen (模型 每 次 处 理 的 字符 数 ) 和 charsetsize (文本 数据 中 不 重复 的 字符 数 ) 指定 了 
第 一 个 LSTM 层 的 输入 形状 。 在 Web 版 示例 中 ，sampleLen 被 便 编 码 为 40。 在 Node.]S 版 示例 
中 ， 可 以 通过 --sampleLen 选项 调整 它 的 值 。 对 于 莎士比亚 作品 数据 集 而 言 ，charSetSize 
的 尺寸 为 71。 字 符 集 合 中 包含 大 写 和 小 与 的 喘 文 字母 、 标 点 、 空 格 、 换 行 待 和 其 他 特殊 字符 。 
综合 上 述 的 参数 尺寸 ,代码 清单 10-1 中 的 函数 创建 的 模型 输入 形状 为 [40，71] (不 考虑 批 次 维 
度 )。 该 形状 对 应 40 个 one-hot 编码 后 的 字符 。 模 型 的 输出 形状 为 [71] (不 考虑 批 次 维度 )， 对 
应 下 个 学 符 的 71 种 可 能 选择 的 归 一 化 指数 概率 。 


代码 清单 10-1 ”为 下 个 字符 预测 任务 构建 多 层 的 LSTM 模型 


模型 输入 序列 的 长 度 
”| “| 不 重复 的 
export function createModel (sampleLen, 字符 总 数 


charSetSize, 























lstmLayerSizes) { 

if (!Array.lsArray (lstmLayerSizes)) { 模型 各 个 LSTM 层 的 尺寸 (可 以 
letmbayerslzes = 和 ee 是 单个 数字 ， 也 可 以 是 数组 ) 

} 





大 万 
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const model tf.sequential(); 
(let 1 0 ; 
const lstmLayerSize 
model.add (tf.layers.lstm(t 
lstmLayerSize, 


下 FE 


units: 
returnSegquences: 
inputShape: 1 === 0 ? 


[sampleLen, 


1 < lstmLayerSizes.1length; 
lstmLayerSizes[1i]; 


1 < lstmLayerSizes.length - 1, 


charSetSizel] 


{ 


+ 十 二) 
模型 以 一 系列 堆 琶 的 
-4 LSTM 层 作为 开始 

将 returnSequences 设 为 true， 


国 这 样 就 可 以 堆 苹 LSTM 层 





: undefined 


a 
} 
model.addl 
tf.layers.denselt 


units: charSetSize, 


第 一 个 LSTM 层 比 较 特殊 ， 
'Ssoftmax' 


因为 必须 配置 它 的 输入 形状 
模型 的 输出 端 是 采用 归 一 化 指数 函数 作为 
激活 函数 的 密集 层 。 它 会 针对 所 有 可 能 的 
字符 输出 概率 值 。 这 反映 出 下 个 字符 预测 


任务 本 质 上 是 一 种 多 分 类 任务 


activation: 


return model; 


将 模型 用 于 训练 前 ,还 要 对 模型 进行 编译 。 此 处 选用 分 类 交叉 烂 作为 损失 函数 ， 因 为 模型 实 
际 上 是 有 71 个 类 别 的 多 分 类 右 ; 此 处 选用 RMSProp 作为 优化 器 , 因为 这 是 循环 神经 网 络 的 一 种 
着 见 选择 。 


Const optimizer 


tf.train.rmsprop (learningRate); 


model.compile({optimizer: optimizer, loss: 'categoricalCrossentropy'}); 


模型 训练 阶段 的 输入 是 很 多 对 文本 片段 及 其 对 应 的 下 个 字符 的 组 合 。 这 些 字 符 都 会 以 one-hot 
编码 的 癌 量 表示 ( 见 图 10-1 )。 从 文本 数据 集 生 成 这 些 张 量 数据 的 逻辑 位 于 lstm-text-generation/data.js 
文件 的 TextData 类 中 。 这 部 分 代码 可 能 有 些 枯 燥 , 但 它 的 概念 很 简单 ， 即 从 长 裔 的 文本 数据 集 
中 随机 采样 定 长 的 段落 ， 然 后 将 其 转换 为 用 one-hot 编码 的 张 量 表示 。 

如 有 果 你 使 用 的 是 Web 版 的 示例 ， 可 以 在 Web 界面 中 的 “Model Training” 部 分 调整 超 参数 ， 
例如 训练 轮 次 数 、 每 轮 次 使 用 的 样 例 数 、 训 练 速 率 等 。 单 击 “Train Model” 按 钮 来 启动 模型 的 训 
练 过 程 。 对 于 Node.js 版 示例 而 言 ， 可 以 通过 命令 行 选项 调整 超 参 数 。 可 以 通过 帮助 命令 yarn 
train --help 查看 具体 有 哪些 可 用 的 选项 。 

取决 于 你 配置 的 训练 轮 次 数 和 模型 的 规模 ,训练 过 程 可 能 会 花 数 分 钟 到 数 小 时 之 入。 在 
Node.js 版 示例 中 ， 训练 进 程 在 每 个 训练 轮 次 后 ,会 打印 出 模型 生成 的 文本 厂 段 ( 见 表 10-1 )。 随 
着 训练 过 程 的 推进 ， 损 失 值 (初始 值 约 为 3.2 ) 会 连续 下 降 ， 直 到 收敛 于 1.4 ~ 1.5 范围 内 。 在 损 
失 下 降 了 约 120 个 轮 次 后 ,生成 的 文本 质量 会 有 质 的 提升 ， 直到 训练 结束 时 ,模型 生成 的 文本 达 
到 准 莎 士 比 亚 水 平 。 训 练 结 束 时 ， 验 证 损失 会 接近 1.5， 比 较 接近 香农 在 实验 中 得 到 的 “单字 符 
信息 不 确定 性 为 1.3 位 ”的 绪论 。 但 要 注意 ， 就 我 们 现在 的 训练 流程 和 模型 容量 而 言 ， 生 成 的 文 
本 离 真 正 的 莎士比亚 作品 水 平 其 实 还 差 得 远 。 
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表 10-1 基于 LSTM 的 下 个 字符 预测 模型 生成 的 文本 。 生 成 流程 使 用 的 初始 文本 是 “ in hourly synod 


训练 轮 次 


3 


25 


50 


100 


120 


a 摘自 莎士比亚 的 《 科 利 


about thy particular prosperity and lo”“ 作 为 参照 ， 
no worse than thy old father Menenius does! .… 


验证 集 损失 
2.44 


1.96 


1.67 


1.61 


1.49 





"rile the the 
































(CTOGTGT GT CT CT GT (CT 
呵呵 呆 呆 吕 吕 吕 员 呆 
Dooopopno no 
CC 
Siete 
(0 
(CT CTGTGT GT CT CT GT (CT 
DODDSDSDSOS 
DD VDDD 人 DDLD 








"ve tray 七 he 
stanter an 
truent to the 
stanter to 
the stanter 
O 七 he 
tanter to 
he stanter 
O the 
tanter to 
he stanter " 





攻 
S 
GE 
t 
S 
E 


"rds the 
world the 
world the 
world 

the world 
the world the 
world the 
world the 
world 

the world 
the world the 
worl" 


"nd the sough 
the sought 

That the 
more the man 
the forth and 
the strange 
as the sought 

That the 
more the man 
the " 


"ve the 
strike the 
strike 

the strike 
strike 
strikes 
strike 
And the 
strike the 
strike the 
strike 

A 


the 
the 
the 





i 


奥 兰 纳 斯 》 第 五 莫 第 二 场 。 注 意 ， 


239 


T= 0.25 


"te ans and and 
and and and warl 
torle an at an 
yawl and tand 
and an an ind an 
an in thall ang 
ind an tord and 
and and wa" 


"ve to the enter 
an truint to the 
surt an truin to 
me truent me the 
will tray mane 
but a bean to 
the stanter an 
trust tra" 


"ngs they are 
their shall the 
englents 


the world 
the world the 
stand the 
provicess their 
string shall the 
world 

让 


"nd the sough as 
the sought 

In the 
consude the more 
of the princes 
angd Show her art 
the compont " 


"ve the fair 
brother, 

And this in 
the strike my 
sort the strike, 

The strike 
the sound in the 
dear strike 

Angd " 


T=0.5 


"te toll 
nlatese ant 
ann, tomdenlil, 
teurteeinlndti 
ng fall ald 
antetetell 
linde ing 
thathere taod 
winld mlinl 
theens tord y" 


"Vve of marter 
at it not me 
shank to an 
him truece 
preater the 
beaty atweath 
and that 
marient shall 
me the manst 
on hath s" 


"nger of the 
hath the 
forgest as you 

for sear 
the device of 
thee shall, 
them at a 
hame, 

The now 
the would have 
bo" 


"rds as the 
manner. 

To the 
charit and the 
stranger and 
house a 
tarron. 

A tommern 
the bear you 
art this a 


Contents, " 
"ve 七 he 
stratter for 
Soul. 

Monty to 


digning him 
your poising. 
This for 
his brother be 
this diqd fool. 
A mock'd" 


它 在 原文 中 真正 的 下 一 名 是 :“ve thee 


T= 0.75 


"Pp, af ane me 
pfleh; fove 
this? 
Iretltard 
efidestind 
ants anl het 
insethou 
lJoellr ard, 


"rd; not an an 
beilloters 

An bentest 
the like have 
bencest on it 
Jove gray to 
dreath avalace 
the lien I am 
sach me, m" 


"ngs, he coll, 

AS heirs 
to me which 
Upon to my 
light fronest 
prowirness 
foir. 

I be chall 
do vall twell. 

STIR C" 


"nd their 
conswents 

That thou 
be three as me 
a thout thou 
do end, 

The 
longers and an 
heart and not 
strange. 

A G" 





"ve of his 
trusdum him. 

poins 
thinks him 
where sudy's 
such then you; 

And soul 
they will I 
would from in 
my than s" 


这 个 示例 的 文本 中 包含 换行 待 ， 起 始 文本 的 最 后 一 个 词 是 “love 。 
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表 10-1 展示 的 文本 是 在 4 种 不 同 的 混沌 值 (temperature value， 表 中 用 工 表示 ) "下 生成 的 ， 
它 可 以 调节 文本 生成 的 随机 程度 。 从 生成 的 文本 中 可 以 看 出 ,， 较 低 混 沌 值 生成 的 文本 往往 看 起 来 
更 重复 、 更 机 械 。 较 高 混沌 值 生成 的 文本 则 往往 更 具 随 机 性 。Node.js 版 示例 默认 使 用 的 就 是 最 
高 混沌 值 0.75。 由 此 得 到 的 字符 序列 往往 年 一 看 像 英 文 , 但 实际 不 是 英文 《例如 表 中 的 “stratter” 
和 “poins” 就 不 是 英文 单词 )。 下 一 方 中 将 展示 混沌 值 的 工作 原理 及 其 名 字 的 由 来 。 


10.1.3 混沌 值 : 调节 生成 文本 的 随机 程度 的 阀门 


在 文本 生成 过 程 的 每 一 步 中 ， 模 型 都 会 生成 每 个 字符 的 概率 值 。 代 码 清单 10-2 中 的 函数 
sample () 负责 决定 应 该 选择 哪个 字符 作为 生成 文本 的 下 个 字符 。 如 你 所 见 ， 这 理 后 的 算法 有 点 复 
杂 ， 因 为 它 会 调用 3 个 底层 的 TensorFlow.js Es EE div EF 1000 NCE .miltinomielt)s 
为 什么 要 使 用 这 个 复杂 的 算法 ， 而 不 是 直接 选择 概率 值 最 高 的 字符 呢 ( 毕 苋 后 者 调用 一 次 
argMax() 承 行 了 ) ? 

这 是 因为 ， 如 采 这 么 做 ,文本 生成 过 程 就 变 得 具有 确定 性 ( deterministic ) 了 。 也 就 是 说 ， 
无 论 运行 多 少 次 , 它 都 会 返回 和 之 前 完全 一 样 的 结果 。 我 们 目前 见 过 的 深度 神经 网 络 都 是 具有 确 
定性 的 , 这 是 因为 对 于 特定 的 输入 张 量 , 输出 张 量 可 以 完全 由 模型 的 拓扑 结构 和 权重 值 决定 。 如 
采 你 想 要 的 话 ， 其 至 可 以 为 模型 写 一 个 单元 测试 来 断言 其 输出 值 ( 参见 第 12 草 中 对 如 何 测试 机 
天 学 习 算 法 的 讨论 )。 这 种 决定 性 对 文本 生成 任务 而 言 是 无 瘟 的 。 毕 葛 ， 写 作 是 创造 性 的 过 程 。 

即使 初始 文本 相同 ， 给 生成 文本 加 点 随机 性 作为 作料 也 会 让 结果 变 得 更 有 趣 。 这 正 是 
cf.multinomial() 运 算 和 混沌 值 参 数 的 作用 。tEf.multinomial() 是 随机 性 的 源头 ， 而 混沌 
值 则 负责 调节 随机 的 程度 〈 见 代码 清单 10-2 )。 
代码 清单 10-2 使 用 混沌 值 的 随机 及 样子 数 

模型 密集 层 输 出 的 是 标准 化 后 的 概率 值 。 


此 处 先 使 用 log() 将 其 转换 成 非 标准 化 的 
对 数 ， 然 后 再 将 结果 除 以 混沌 值 




































































export function sample(probs, temperature) { 





enen CE Ey) = 1 保证 混沌 值 不 小 于 一 个 极 小 的 整数 ， 
const logPreds = tf.div( 从 而 避免 除 零 错误 。 除 法 运算 的 结果 
EF.lo0 (rs), 是 经 过 混沌 值 缩放 的 对 数 
Math.max(temperature, le-6)); 
const ijsNormalized = false; 
return tf.multinomial (logPreds, 1, null, isNormalized) .dataSync() [0]; 





3 


) tf .multinomial() 是 随机 采样 函数 。 它 就 好 比 一 


个 动 了 手脚 的 多 面 般 子 。 般 子 每 面 出 现 的 概率 不 同 ， 
由 1ogPreds， 即 经 过 混沌 值 缩放 的 对 数 决 定 





中 参见 10.1.3 节 倒 数 第 二 段 中 对 混沌 值 含义 和 来 源 的 解释 。 一 一 译 者 注 
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下面 这 行 代 码 是 代码 清单 10-2 中 的 sample () 国 数 最 重要 的 部 分 。 

Const logPreds = tf.Qqlvtf. Lodg(Propbps) ， 

Math.max(temperature, 1e-6)); 

这 行 代 人 码 会 将 probs( 模型 输出 的 概率 值 ) 转换 成 logPreds ( 经 过 混沌 值 缩放 的 概率 值 的 
对 数 )。 对 数 运算 (tf .1og () ) 和 缩放 (tf .div() ) 的 作用 是 什么 呢 ? 让 我 们 通过 示例 来 说 明 。 
为 了 简化 问题 ,假设 共有 3 种 选择 〈 即 字符 集合 中 共有 3 个 字符 )。 同 时 ,假设 下 个 字符 预测 模 
型 根据 茶 个 输入 序列 输出 的 3 个 概率 值 如 下 。 


| 














接 下 来 看 看 不 同 的 混沌 值 会 如 何 改变 这 些 概 率 值 。 允 来 看 看 较 低 的 混沌 值 0.25 的 作用 。 经 
过 缩放 后 的 对 数值 如 下 。 


log([0.1, 0.7, 0.2]1) / 0.25 = [-9.2103, -1.4267, -6.4378] 


要 理解 这 些 对 数值 的 含义 , 可 以 先 通 过 归 一 化 指数 函数 将 它们 转换 回 实际 的 概率 值 。 也 就 是 
说 ， 取 对 数 的 指数 ， 并 将 它们 标准 化 。 


ET 
= [0.0004，0.9930，0.0066] 


如 上 所 示 ， 经 过 0.25 这 个 混沌 值 顷 放 后 的 对 数值 所 对 应 的 概率 分 布 是 避 度 集中 的 。 其 中 第 
二 个 学 符 的 概率 值 要 远 高 于 其 他 两 个 字符 ( 参见 图 10-3 中 的 第 二 个 子 图 )。 
如 末 将 混沌 值 提高 到 0.75 会 怎样? 使 用 同样 的 计算 过 程 可 以 得 到 下 面 的 结 


Log([0.1，0.7，0.2]) / 0.75 = [-3.0701, -0.4756, -2.1459] 


exB( [=3. 0072701 =U.4J56; -2rld39)). 7 Sum(ll=-3 .00L; =0sd756;, =2sl453]) 
= [0.0591, 0.7919 0.1490] 











这 次 的 概率 分 布 没 有 之 前 混沌 值 为 0.25 时 那么 集中 (参见 图 10-3 中 的 第 四 个 子 图 ), 但 是 它 
仍 比 原 分 布 要 集中 得 多 。 你 可 能 已 经 意识 到 ， 如 有 果 将 混沌 值 调 为 1， 那么 结果 就 是 原 分 布 (参见 
图 10-3 中 的 第 五 个 子 图 ),。 如 有 果 将 混沌 值 升 至 1 以 上 , 那么 会 得 到 一 个 各 字符 的 概率 更 加 “均衡 ” 
的 概率 分 布 (参见 图 10-3 中 的 第 六 个 子 图 )。 但 无 论 是 哪个 子 图 ， 每 个 字符 概率 的 大 小 排序 是 不 


慨 的 。 





























T = 0.00 T = 0.25 T = 0.50 
1 1 1 
0.8 0.8 0.8 
四 0.6 0.6 0.6 
证 
寄 04 0.4 0.4 
0.2 OZ 0.2 
0 0 0 
1 2 3 1 2 3 
T=0.75 T= 1.00 T = 1.25 
1 1 1 
0.8 0.8 0.8 
可 0.6 0.6 0.6 
洗 
囚 0.4 0.4 0.4 
0.2 0 0.2 
0 0 0 
1 区 1 2 3 
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图 10-3 ”经 过 混沌 值 (TT ) 缩放 后 的 概率 分 布 。 工 值 越 小 , 分 布 就 越 集中 ( 更 具 确 定性 ); 





T 值 越 高 ， 各 类 别 的 概率 就 越 均衡 (更 具 随 机 性 ) 工 值 等 于 1 时 ， 概 率 分 布 
不 会 有 任何 变化 。 注 意 , 无论 T 值 是 多 少 ， 图 中 3 种 类 别 的 概率 的 大 小 排序 


古 不 变 的 


这 些 转换 后 的 概率 值 (或 者 说 概率 值 的 对 数 ) 随后 会 被 传人 tf.multinomial() 辑 数 中 。 
后 者 就 像 一 个 被 做 了 手脚 的 多 面 般 子 。 取 决 于 输入 的 参数 , 掷 到 盘子 每 一 面 的 概率 值 都 是 不 同 的 。 
最 后 毛 到 的 一 面 就 是 模型 输出 的 下 一 个 学 符 。 

混沌 值 就 是 这 样 调 控 生 成 文本 的 随机 性 的 。 混 沌 值 背 后 的 瑞 文 术语 “temperature” 来 日 热力 
学 。 因 为 在 热力 学 中 ， 系 统 的 温度 ( temperature ) 越 高 ， 其 内 部 就 越 混沌 。 对 于 本 示例 而 言 ， 这 
是 个 很 恰当 的 类 比 ， 因 为 随 看 我 们 增加 代码 中 的 “温度 ”， 最 后 得 到 的 文本 确实 也 更 为 混沌 。 混 
沌 值 的 大 小 有 个 “ 绝 佳 的 平衡 点 "。 低 于 这 个 平衡 点 ， 生 成 的 文本 看 起 来 重复 又 机 械 ; 高 于 这 个 
平衡 点 ,生成 的 文本 又 过 于 不 可 测 和 怪异 ,对 基于 LSTM 层 的 文本 生成 方法 的 讲解 到 此 就 结束 了 。 
注意 ,这 是 个 非常 通用 的 方法 , 稍 加 调整 就 可 应 用 到 很 多 其 他 类 型 的 序列 上 。 例 如， 如 果 用 大 规 
模 的 音符 数据 集 进行 训练 ,LSTM 层 可 以 通过 序列 中 已 有 的 音符 不 断 预 测 下 个 首 符 ， 最 后 实现 日 
动 谱 曲 。™ 








中 参见 Allen Huang 和 Raymond Wu 的 文章 “Deep Learning for Music”。 
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10.2” 变 分 自 编码 器 : 找到 图 像 的 高 效 、 结 构 化 表示 


上 一 市 中 简要 讲解 了 如 何 用 深度 学 习 技巧 生成 文本 这 样 的 序列 数据 。 本 章 的 剩余 内 容 将 介绍 
如 何 构建 能 生成 图 像 的 神经 网 络 。 我 们 会 考察 两 种 类 型 的 模型 : 变 分 自 编码 器 ( variational 
autoencoder VAE ) 和 生成 式 对 抗 网 络 ( generative adversarial network, GAN )。 和 GAN 相 比 ，VAE 
的 历史 更 为 悠 人 入、 结构 更 为 简单 ， 因 此 VAE 是 你 进入 基于 深度 学 习 的 图 像 生成 领域 的 一 个 不 错 
的 热 导 。 





10.2.1 经 典 目 编码 器 和 变 分 目 编码 器 : 基本 概念 


图 10-4 中 的 示意 图 展示 了 自 编码 器 的 整体 架构 。 不 看 之 下 ， 这 个 模型 有 点 奇怪 ， 因 为 它 的 
输入 和 输出 的 图 像 尺 寸 是 相同 的 。 该 模型 的 抵 层 会 使 用 输入 和 输出 间 的 MSE 作为 目 编 码 磊 。 这 
意味 着 ， 如 果 训 练 得 当 ， 目 编码 大 的 输出 图 像 和 输入 图 像 是 完全 相同 的 。 实 在 很 难 想象 ,这样 的 
模型 有 何 用 处 。 

事实 上 , 自 编 码 右 是 一 种 香 要 且 相 当 有 用 的 生成 式 模型 。 问 到 它 的 用 人 处, 谜底 就 在 它 沙 涯 形 
的 架构 中 ( 见 图 10-4 )。 目 编码 帮 的 中 间 部 分 是 一 个 癌 量 ， 该 癌 量 的 元 系数 比 输入 和 输出 图 像 的 
少 得 多 。 因 此 ， 目 编码 需 实 现 的 图 像 到 几 像 转换 并 没有 看 起 来 那么 简单 。 它 会 先 将 输入 岁 像 转换 
成 一 个 高 度 压 缩 的 表示 。 然 后 在 无 任何 额外 信息 输入 的 前 提 下 ， 从 压缩 版 的 表示 中 重建 图 像 。 中 
间 这 个 高 效 的 表示 叫 作 本 征 向 量 〈latent vector )， 或 者 z 向 量 〈z-vector )。 这 两 个 术语 在 使 用 中 
没有 差别 。 本 征 回 量 所 处 的 回 量 空间 叫 作 本 征 空 间 (latent space ) 或 者 z 空间 (z-space )。 目 编 码 
天 中 负责 将 输入 网 像 转换 为 本 征 回 量 的 部 分 叫 作 编 码 器 ( encoder )， 后 面 负 责 将 本 征 回 量 转换 回 
图 像 的 部 分 叫 作 解码 器 。 
































本 征 问 量 


(Z-vector ) 


编码 器 角 









输入 图 像 输出 图 像 


图 10-4 _ 经典 目 编码 需 的 架构 图 





300 ”第 10 章 生成 式 深度 学 习 





原 图 像 可 能 比 本 征 向 量 大 数 百 倍 ,， 稍 后 将 通过 一 个 具体 的 例子 说 明 这 一 点 。 因 此 ,训练 好 的 
目 编 码 胡 可 以 说 是 一 个 极其 高 效 的 降 维 融 。 它 是 输入 图 像 的 高 度 压 缩 版 的 表示 , 但 又 包含 足够 多 
的 信息 ,能够 在 无 额外 信息 的 条 件 下 忠实 地 重建 输入 网 像 。 解 码 表 能 做 到 这 一 点 真 的 很 不 可 思议 。 

我 们 可 以 从 信息 论 的 视角 来 理解 日 编 码 带 。 假设 输入 和 输出 图 像 各 包含 N 位 的 信息 。 可 以 将 
YX 朴 系 地 理解 为 图 像 中 总 像素 效 和 表示 每 个 像素 所 用 的 位 数 的 乘积 。 与 输入 岁 像 不 同 ， 目 编码 硒 
中 间 部 分 的 本 征 向 量 尺 寸 非常 小 (假设 为 m 位 )， 它 能 存储 的 信息 量 自 然 也 会 很 少 。 如 果 m 小 于 
N， 要 从 本 征 回 量 重建 图 像 在 理论 上 是 不 可 能 的 。 然 而 ， 图 像 中 的 像素 并 不 是 完全 随机 的 〈 如 采 
真 的 是 完全 随机 的 ， 它 们 看 起 来 就 会 只 有 噪声 信号 而 没有 内 容 ) 相反 ， 像 系 表 后 是 暗含 看 茶 种 
模式 的 。 例 如 ,它们 的 颜色 会 具有 连续 性 ， 并 且 会 符合 它们 所 表示 的 真实 物体 的 特征 。 这 就 是 为 
什么 NN 十 没有 最 初 的 像素 总 数 和 像 系 位 数 的 乘积 那么 大 ,日 编码 可 的 责任 就 是 学 习 像 系 背 后 的 模 
式 。 这 也 是 目 编 码 带 这 样 的 模型 可 行 的 原因 。 

训练 好 自 编码 厅 后 , 就 可 以 脱离 编码 带 部 分 , 只 使 用 解码 融 部 分 。 对 于 任何 给 定 的 本 征 回 量 ， 
它 可 以 生成 符合 训练 图 像 模式 和 风格 的 图 像 。 这 是 生成 式 醒 型 应 有 的 能 力 。 此 外 , 本 征 空 间 还 可 
能 包含 一 些 有 价值 且 容 易 理 解 的 结构 。 具 体 而 言 , 本 征 空 间 的 每 个 维度 应 该 和 图 像 中 一 个 有 意义 
的 部 分 相关 联 。 例 如 , 假设 用 人 腔 岁 像 训 练 一 个 目 编码 大 。 本 征 空间 的 一 个 维度 可 能 和 微 舌 的 程 
度 相 关联 。 如 采 让 本 征 空 间 的 所 有 其 他 维度 保持 不 变 ， 仅 改变 这 个 “ 微 关 维度"， 那 么 解码 而 生 
成 的 图 像 会 是 同一 张 脸 ， 只 不 过 微笑 的 程度 不 同 罢 了 《〈 见 图 10-5 )。 这 使 一 些 有 趣 的 应 用 成 为 可 
能 。 例 如 可 以 像 上 文 所 说 的 , 修改 一 个 输入 人 脸 图 像 的 微 突 程度 ， 而 不 改变 其 他 东西 。 可 以 用 以 
下 步 又 来 做 到 这 一 点 。 前 完 , 通过 编码 癌 获 取 输 入 的 本 征 向 量 。 随后 , 仪 修改 向 量 的 “ 微 突 维度 ”。 
最 后 ， 将 修改 后 的 本 征 问 量 传人 解码 俘 。 




































































图 10-5 “ 微 先 维度 ”的 变化 示例 ， 展 示 了 目 编 码 角 可 以 通过 学 习 本 征 空 间 中 存在 的 有 





意义 的 结构 来 实现 有 趣 的 应 用 


遗憾 的 是 ， 图 10-4 中 展示 的 经 典 自 编码 器 ( classical autoencoder ) 产生 的 本 征 空 间 及 其 结构 
并 不 是 特别 有 用 ， 压 缩 率 也 不 是 很 高 。 因 此 ， 经 典 和 目 编 码 带 在 2013 年 之 后 就 不 那么 流行 了 。 
Diederik Kingma 和 Max Welling 于 2013 年 的 12 月 "，Danilo Rezende 、Shakir Mohamed 和 Daan 
Wiestra 于 2014 年 的 1 月 ”几乎 同时 发 现 了 VAE。VAE 通过 使 用 一 些 精妙 的 统计 方法 增强 了 自 编 
但 天 。 这 些 统计 方法 可 以 迫使 模型 学 习 连 续 且 高 度 结构 化 的 本 征 空 间 。 事 实证 明 ,，VAE 是 一 种 强 











中 参见 Diederik P Kingma 和 Max Welling 的 文章 “Auto-Encoding Variational Bayes”。 
@) 参见 Danilo Jimenez Rezende、Shakir Mohamed 和 Daan Wierstra 的 文章 “Stochastic Backpropagation and Approximate 


Inference in Deep Generative Models”。 
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大 的 生成 式 图 像 模 型 。 

VAE 不 会 将 输入 图 像 压缩 为 本 征 空 间 中 固定 的 回 量 , 而 是 将 图 像 转换 成 统计 分 布 ( 例 如 高 斯 
分 布 ) 的 参数 。 你 可 能 还 记得 高 中 数学 课 上 所 学 的 ， 高 斯 分 布 (Gaussian distribution ) 有 两 个 参 
数 : 均值 和 方差 (或 与 此 等 效 的 标准 差 )。VAE 会 将 每 个 输入 图 像 映射 到 一 个 均值 。 唯 一 复杂 的 
地 方 是 ， 如 采 本 征 空 间 不 止 一 维 ， 那么 均值 和 方差 就 不 止 一 维 。 下 面 的 示例 将 说 明 这 点 。 我 们 实 
际 上 是 在 假设 图 像 生 成 的 过 程 是 随机 的 , 而 编码 和 解码 时 应 该 考虑 到 这 种 随机 性 。VAE 随后 会 利 
用 均值 和 方差 参数 从 分 布 中 随机 采样 出 一 个 向 量 ,， 然 后 将 该 元 素 解 码 成 原 输 入 的 尺寸 ( 见 图 
10-6 ), 这 种 随机 性 是 VAE 提升 稳健 性 , 并 确保 本 征 空 间 能 够 编码 图 像 各 部 位 的 表示 的 关键 所 在 。 
经 由 解码 天 解码 后 ， 从 本 征 空 间 采 样 的 每 个 点 都 应 是 一 个 正确 的 图 像 输出 。 


a. 经 典 自 编码 器 的 工作 原理 




















Be 


1 本 征 空间 


min. 


EG ss i i i i ed et i i ed 
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图 10-6 经 典 自 编 码 器 (图 10-6a ) 和 VAE (图 10-6b ) 的 原理 比较 。 经 典 自 编码 器 会 将 
输入 岁 像 转换 成 固定 的 本 征 向 量 ， 并 使 用 该 向 量 进行 解码 。 与 此 不 同 ，VAE 会 
将 输入 图 像 映射 到 一 个 用 均值 和 方差 定义 的 分 布 ， 然 后 用 这 个 随机 向 量 生成 解 
码 后 的 图 像 。 图 中 的 连 帽 衫 图 像 来 自 Fashion-MNIST 数据 集 


接 下 来 会 用 Fashion-MNIST 数据 集 展 示 VAE 是 如 何 实 际 使 用 的 。 顾 名 思 义 ，Fashion-MNIST 
数据 集 " 的 灵感 来 自 原 本 的 MNIST 手写 数字 数据 集 ， 但 其 中 包含 服装 和 其 他 时 尚 相 关 物 品 的 网 
像 。 和 MNIST 数据 集中 的 图 像 一 样 ，Fashion-MNIST 数据 集中 的 图 像 也 是 28 像素 x 28 像素 的 灰 
度 图 像 。 数 据 集中 的 服装 和 时 尚 物品 可 分 为 10 个 类 别 (比如 工 恤 衫 、 连 帽 衫 、 鞋 子 和 手提 包 ， 
参见 图 10-6 中 的 示例 ) 然而 , 和 MNIST 数据 集 相 比 , Fashion-MNIST 数据 集 对 机 需 学 习 算 法 而 言 ， 
要 更 难 学 习 一 些 。 对 于 后 者 而 言 ， 当 前 顶尖 模型 的 测试 集 准确 率 约 为 96.35%， 而 前 者 的 项 尖 模 型 
































中 参见 Han Xiao 、Kashif Rasul 和 Roland Vollgraf 的 文章 “Fashion-MNIST--A Novel Image Dataset for Benchmarking 
Machine Learning Algorithms” 。 
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的 测试 集 准 确 率 约 为 99.75%。 我 们 将 用 TensorFlowjs 构建 一 个 VAE, 然后 用 Fashion-MNIST 数据 
集训 练 它 。 随 后 会 用 VAE 的 解码 大 从 二 维 本 征 空间 进行 采样 ， 并 观察 空间 中 的 结构 。 








10.2.2 ”VAE 的 具体 示例 : Fashion-MNIST 数据 集 示例 


可 以 用 下 列 命 令 下 载 MNIST 数据 集 示例 ( fashion-mnist-vae )。 


git clone htps:/ /dgIthupb.com/ tensorft1ow/ft]JSs-examples .git 
cd tfjs-examples/fashion-mist-vae 





yarn 
yarn download-data 


示例 可 以 分 为 两 部 分 : 在 Node.js 中 训练 VAE, 以 及 用 VAE 解码 器 在 浏览 器 中 生成 图 像 。 可 
以 用 下 列 命 令 启动 模型 的 训练 。 


yarn train 


如 果 你 有 一 个 启用 了 CUDA 的 GPU， 可 以 使 用 --gpu 选项 加 速 模型 的 训练 。 


yarn train --gpu 


在 配 有 CUDA GPU 的 较 新 的 笔记 本 计算 机 上 ， 训 练 只 需 5 分钟 左 右 。 如 果 没 有 GPU， 训练 
也 可 以 在 一 小 时 内 完成 。 可 以 使 用 下 面 的 命令 构建 并 在 浏览 器 中 局 动 前 端 界面 。 


yarn watch 


前 端 会 加 载 VAE 的 解码 右 ， 使 用 二 维 网 格 中 均匀 排 布 的 本 征 癌 量 生成 大 量 的 图 像 ， 然 后 将 
这 些 图 像 显 示 在 页 面 上 。 这 会 让 你 更 好 地 理解 本 征 空 间 的 结构 。 

以 下 是 从 技术 层面 来 讨 ，VAE 是 如 何 工 作 的 。 

(1) 编码 融会 将 输入 样 例 转换 为 本 征 空间 的 两 个 参数 : zMean 和 zLogvar。 它 们 分 别 是 均值 
和 方差 的 对 数 ( 即 log 运算 之 后 的 方差 )。 两 个 向 量 的 长 度 相 同 , 且 等 于 本 征 空间 的 维 数 。” 例 如， 
本 征 空间 可 以 是 二 维 的 ， 这 样 zMean 和 zLogvVar 会 各 是 一 个 长 度 为 2 的 向 量 。 为 何 使 用 log 后 
的 方差 ( zLogVar )， 而 不 是 方差 本 身 呢 ? 这 是 因为 ， 尽 管 方差 本 身 定 义 是 非 负 的 ， 但 没有 什么 
简单 的 方法 能 够 保证 一 个 神经 层 的 输出 能 绝对 符合 这 个 要 求 。 而 log 后 的 方差 则 不 同 ， 它 可 以 是 
任意 符号 。 通 过 使 用 这 个 算法 ， 我 们 不 必 担 心 层 输 出 的 符号 。 之 后 可 以 通过 简单 的 指数 运算 
(tf.exp() ) 将 log 版 的 方差 轻松 地 转换 成 正常 的 方差 。 

(2) VAE 会 使 用 一 个 名 为 epsilon 的 回 量 从 本 征 回 量 的 正 态 分 布 中 随机 采样 一 个 本 征 回 量 。 
epsilon 问 量 的 长 度 和 zMean 以 及 zLogvar 相同 。 下 面 是 对 该 算法 的 简单 数学 表示 。 这 在 文 
献 中 一 般 叫 作 重新 参数 化 〈reparameterization )。 


Z = ZMean + exp (ZLogVar * 0.5) * epsilon 






































中 参见 GitHub 网 站 上 的 文章 “State-of-the-Art Result for All Machine Learning Problems”。 
@ 严格 来 说 ,长 度 为 N 的 本 征 向 量 的 协 方差 矩阵 是 一 个 Wx V 的 和 矩阵 。 然 而，zLogvVar 是 个 长 度 为 Y 的 向 量 ， 因 为 
我 们 会 将 协 方差 算 阵 约束 成 一 个 对 角 和 矩阵 。 也 就 是 说 ， 本 征 癌 量 的 两 个 不 同 元 素 间 是 没有 关联 的 。 
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通过 乘 以 0.5, 上面 的 式 子 会 将 方差 转换 成 标准 差 。 这 是 因为 标准 差 本 里 就 是 方差 的 平方 根 。 
对 应 的 JavaScript 代码 如 下 所 示 ( 见 代码 清单 10-3 )。 


Z = ZMean.add(zLogVar.mul(0.5) .exp() .mul (epsilon));} 


随后 ，z 会 被 输入 到 VAE 的 解码 需 部 分 ， 从 而 生成 要 输出 的 图 像 。 

在 VAE 的 实现 中 ， 采 样本 征 辐 量 的 步骤 是 通过 名 为 ZLayez 的 自 定 义 层 实现 的 〈 见 代码 清 
单 10-3 )。 之 前 第 9 章 中 简单 地 介绍 过 目 定 义 的 TensorFlow.js 层 ( 即 基于 注意 力 机 制 的 日 期 格式 
转换 模型 中 的 GetLastTimestepLayer 层 )。 本 示例 中 ，VAE 使 用 的 目 定 义 层 要 比 之 前 的 稍微 
复杂 些 ， 因 此 值得 多 花 点 工夫 介绍 一 下 。 

ZzLayer 类 有 两 个 关键 的 方法 : computeoutputSshape() 和 call()。 TensorFlow.]S 用 
computeOutputShape () 来 推断 Layer 实例 的 输出 形状 。 该 方法 的 参数 是 输入 的 形状 。call () 
方法 是 数学 计算 所 在 的 部 分 , 包含 上 文 介绍 的 公式 逻辑 。 下面 的 代码 清单 10-3 摘 目 fashion-mnist- 


vae/model.]js。 


代码 清单 10-3 ”用 目 定 义 层 从 本 征 空间 采样 


class ZLayer extends tf.layers.Layer { 














constructor(config) { 
super (conf1ig); 


} 


computeOutputShape (inputShape) { 
tf.util.assert (inputShape.length === 2 && Array.1isArray (inputShapel[0]), 
() => Expected exactly 2 input shapes. ”+ 


“But got: S$S{inputShape} ); 
return inputShapel[l0]; < 确保 输入 确实 含有 两 个 参数 : 


} zMean 和 zLogVar 





call(inputs, kwargs) f{ 输出 的 形状 和 zMean 
const [zMean, zZLogVar] = inputs; 的 形状 相同 
const batch = zMean.shapel0]; 
const dim = zMean.shapell1l]; 
const mean = 0; 
Gonst SEO 三 十 507 
const epsilon = tf.randomNormal ( 从 正 态 分 布 中 随机 获取 


[batch, dim], mean, stdqd):; 一 个 epsilon 批 次 


return zZMean.addl 
ZzLogVar .mul (0.5) .exp() .mul (epsilon)); 


} 此 处 是 真正 采样 本 征 向 量 的 地 方 ， 公 式 为 


zMean + standardDeviation * epsilon 

static get ClassName() { ee 

es 设置 类 的 静态 名 字 ， 
return 'ZLayer'; 

) 以 备 序列 化 层 时 使 用 


} 
tf.serialization.registerClass (ZLayer); NR 
注册 这 个 类 ， 以 支持 


有 反 序列 化 
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如 代码 清单 10-4 所 示 ,， ZLayer Be 成 为 编码 需 的 一 部 分 。 编 但 规模 型 使 用 的 是 项 
数 式 写法 ,而 不 是 序列 陈 写 法 ,因为 它 的 内 部 结构 是 非 线 性 的 ,并 且 有 3 个 输出 :zMean、zLogVaz 
和 z( 见 图 10-7 )。 编 码 融 的 输出 为 >， 因为 它 会 被 解 但 硕 用 到 。 但 是 为 什么 编码 硕 的 输出 还 包含 
zMean 和 zLogVar 呢 ? 这 是 因为 它们 会 被 用 于 计算 VAE 的 损失 也 数 。 接 下 来 的 示例 将 展示 这 一 点 












的 输入 
图 像 


训练 步骤 


| optimizer 
Ue minimize() 





图 10-7 TensorFlow.js 如 何 实现 VAE 的 示意 网， 展示 了 编码 硕 和 解码 需 部 分 的 细 ， 
以 及 VAE 训练 所 需 的 目 定 义 损失 函数 和 优化 天 


代码 清单 10-4 ”VAE 的 编码 天 部 分 〈 摘 目 fashion-mnist-vae/model.js ) 


function encoder (opts) { 








const {originalDim, intermediateDim, latentDim} = opts; 
const inputs = tf.input({shape: [originalDim], name: 'encoder_ input'});} 
const x = tf.layers.dense({units: intermediateDim, activation: 'relu'}) 
.apply (inputs); 

const zMean = tf.layers.dense({units: latentDim, name: 'z_ mean'}) .apply (x); 
Const zLogVar = tf.layers.densel(t{ 

units: latentDim, 

name: 'zZ_1]og var 

}) .apply (x); 
COnst Zz = 
new ZLayer({name: 'z', outputShape: [latentDim]}) .apply ([zMean, 
ZLogVar|]); 
const enc = tf.modell(t 
0 实例 化 自 定义 的 zLayer， 然 后 用 
outputs: [zMean, ZzZLogVar, Z|], 它 从 zMean 和 zLogVar 定义 的 分 
人 布 中 抽取 随机 样本 
return enc,; 
| 和 一 般 的 MLP 不 同 ， 此 处 在 隐藏 
有 囊 的 密 集 层 下 游 添 加 了 两 个 层 来 分 
编码 器 的 底层 是 一 | 简单 别 预 测 ZMean 和 ZLogVar。 人 
的 单 隐藏 层 的 MLP 是 为 什么 此 处 使 用 函数 式 模型 ， 





不 是 更 简单 的 序列 模型 
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除了 zLayer 以 外 ， 编 码 需 部 分 还 包括 两 个 拥有 单个 隐藏 层 的 MLP。 它 们 的 作用 是 将 扁平 
化 后 的 Fashion-MNIST 数据 集 的 图 像 分 别 转换 成 zMean 和 zLogvar 向 量 。 两 个 MLP 会 共用 一 
个 相同 的 隐藏 层 , 但 是 使 用 不 同 的 输出 层 。 之 所 以 可 以 使 用 这 种 有 分 支 的 模型 拓扑 结构 ， 是 因为 
编 但 天 是 一 个 师 数 式 模型 。 

代码 清单 10-5 负责 构建 解码 需 部 分 。 和 编码 句 相 比 ， 解 码 需 的 拓扑 结构 相对 简单 。 它 使 用 
一 个 MLP 将 输入 的 z 癌 量 ( 即 本 征 问 量 ) 转换 成 形状 相同 的 几 像 ， 作 为 编码 硕 的 输入 。 注 意 ， 
VAE 处 理 图 像 的 方式 有 些 简 单 ， 或 者 说 特殊 ,因为 它 将 图 像 扁 平 化 为 一 维 回 量 , 因此 舍弃 了 空间 
言 息 。 针 对 图 像 的 VAE 一 般 会 使 用 卷 积 层 和 池 化 层 ,， 但 是 因为 此 处 的 图 像 很 简单 ( 尺寸 很 小 并 
有 昌 只 有 一 个 颜色 通道 )， 这 种 局 平 化 琳 上 略 非 党 适用 于 这 种 使 用 场景 。 


代码 清单 10-5 ”VAE 的 解码 妖 部 分 (摘自 fashion-mnist-vae/model.js ) 
function decoder (opts) 1{ 
const {originalDim, intermediateDim, latentDim} = opts; 











dec.add (tf.layers.densel(t 负责 将 本 征 向 量 ( 即 z 向 量 》 


const dec = tf.sequential({name: 'decoder'}); 解码 器 是 个 简单 的 MLP。 它 
units: intermediateDim, 转换 为 扁平 化 的 图 像 


activation: 'relu', 
inputShape: [latentDiml] 
})); 
dec.add (tf.layers.densel(t 
units: originalDim, 





activation: 'sigmoid' 
a sigmoid 激活 函数 是 输出 层 的 一 
return dec; 个 好 选择 ， 因 为 这 能 保证 输出 图 像 
J 的 像素 值 范 围 在 0 一 1 内 





代码 清单 10-6 中 的 代码 从 编码 器 中 提取 出 第 三 个 输出 〈z 向 量 )， 然 后 将 它 传人 解码 器 中 。 
这 样 ， 编 码 器 和 解码 器 就 结合 成 了 单个 tf.LayerModel 对 象 , 即 VAE。 解码 后 的 图 像 是 结合 后 
的 模型 的 输出 之 一 。 此 外 还 有 其 他 3 个 输出 : zMean、zLogVar 和 z-vector。 至 此 ，VAE 模型 
的 拓扑 结构 就 定义 完成 了 。 我 们 还 需要 两 个 东西 : 损失 函数 和 优化 絮 。 下 面 的 代码 清单 10-6 摘 


日 fashion-mnist-vae/model.js。 


代码 清单 10-6 ”将 编码 融和 解码 融 结 合成 VAE 
| VAE 的 输入 和 编码 器 的 输入 相 
iunetLion vac (eneoder, decoder) + 同 ， 都 为 原 输入 图 像 


const inputs = encoder.inputs; 


S 
Const encoderOutputs = encoder.apply (inputs); 
S 
S 


ConSt encoded = emcodqeroOutpPutS [2]:; 
const decoderOutput = decoder.apply (encoded); 编码 器 的 3 个 输出 中 ， 只 有 最 
worigt 3 二 GET 后 一 个 〈z) 会 进入 解码 器 


inputs: inputs, 

















outputs: [decoderOutput, ...encoderOutputsj]j, 二 
name: 'vae mlp', 
上 
return Vv? VAE 模型 对 象 的 输出 包括 解码 后 的 
} 图 像 ， 以 及 zMean、zLogVar 和 z 
因为 模型 的 拓扑 结构 是 非 线 性 的 ， 


所 以 使 用 函数 式 模 型 API 
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在 第 5 草 中 介绍 人 徐 单 的 目标 检测 模型 时 ,我 们 介绍 了 如 何在 TensorFlow.js 中 目 定 义 损 失 函 数 。 
此 处 也 需要 一 个 目 定 义 损失 琢 数 来 训练 VAE。 这 是 因为 损失 也 数 是 以 下 两 项 之 和 : 一 项 负责 量 
化 输入 和 输出 间 的 差距 , 另 一 项 负责 量化 本 征 空 间 的 统计 特征 。 这 和 目标 检测 模型 的 目 定 义 损 失 
国 数 很 相似 。 在 该 困 数 中 ， 一 项 是 目标 的 分 类 ， 另 一 项 是 目标 在 图 像 中 的 位 置 。 

如 代码 清单 10-7 所 示 ( 摘自 fashion-mnist-vae/modeljs )， 定 义 输入 与 输出 间 的 差距 很 简单 ， 
只 需要 计算 原 输 入 和 解码 需 输 出 间 的 MSE 即 可 。 统 计 特 征 项 叫 作 KL 散 度 ( Kullbach-Liebler 
divergence， 人 简称 KL divergence ) 项 。 这 项 的 计算 方法 束 要 复杂 得 多 。 此 处 不 会 蒙 述 算法 的 具体 
细节 "， 但 我 们 可 以 像 下 面 这 样 在 直觉 层面 理解 它 : KL 散 度 项 (代码 中 的 klLoss ) 促使 不 同 的 
输入 图 像 围 绕 本 征 空间 的 中 心 更 均匀 地 分 布 。 这 使 解码 妖 能 够 更 容易 地 在 图 像 间 插 值 。 因 此 ,可 
以 将 klLoss 项 看 作 VAE 主要 输入 与 输出 之 间 的 差距 项 之 上 的 一 个 正则 化 项 。 


代码 清单 10-7 ”VAE 的 损失 也 数 









































function vaeLoss(inputs, outputs) { 
const originalDim = inputs.shapel[ll1]; 
const decoderOutput = outputs[0]; 计算 “重建 损失 ”项 。 最 小 化 该 项 的 
const zMean = outputs[1]; 目的 是 让 模型 的 输出 尽 可 能 和 输入 
const zLogVar = outputs[2]; 数据 匹配 


Const reconstructionLoss = 


tf.losses.meanSquaredError (inputs, decoderOutput) .mul (originalDim).; 


let klLoss = ZzZLogVar.add(1) .sub(zMean.square()) .sub(zLogVar.exp());} 
klLoss = klLoss.sum(-1) .mul(-0.5) ; 


return reconstructionLoss.add (klLoss) .mean(); < 
} 对 图 像 的 重建 损失 和 
KL 散 度 损失 求 和 ， 最 
计算 zLogVar 和 zMean 间 的 KL 散 度 。 终 得 到 VAE 损失 





最 小 化 这 一 项 的 目的 是 让 本 征 变量 更 加 
正 态 分 布 于 本 征 空间 的 中 心 


还 需要 定义 VAE 训练 所 需 的 优化 硕 以 及 训练 流程 本 身 。 此 处 选择 的 优化 硕 是 流行 的 ADAM 
优化 硕 (tf.train.adam() )。VAE 的 训练 流程 和 我 们 在 本 书 中 见 过 的 其 他 模型 的 训练 流程 有 
所 不 同 ， 因 为 它 不 会 使 用 模型 对 象 的 fit () 或 fitDataset () 方 法 。 相 反 ， 它 调用 的 是 优化 器 
的 minimize() 方 法 〈 见 代码 清单 10-8 )。 这 是 因为 目 定 义 损失 天 数 的 KL 散 度 项 会 用 到 模型 4 
个 输出 中 的 两 个 。 但 在 TensorFlow.js 中 , fit() 和 fitDataset () 只 有 在 模型 每 个 输出 的 损失 也 
数 不 依 赖 于 其 他 输出 时 才 适 用 。 

如 代码 清单 10-8 所 示 , minimize() 因数 调用 时 的 唯一 参数 是 个 箭头 函数 。 箭 头 函 数 会 返回 
当前 扁平 化 的 图 像 批 次 (代码 中 的 reshaped ) 的 损失 。 其 中 reshaped 被 财 包 在 咎 头 果 数 中 。 
minimize() 负 责 计 算 损 失 关 于 VAE (包括 编码 项 和 解码 天 部 分 ) 的 可 训练 权重 的 梯度 ， 根 据 


























GD Irhum Shafkat 的 博文 “Intuitively Understanding Variational Autoencoders” 中 包含 对 KL 散 度 背后 的 数学 原理 更 深入 
的 讨论 。 
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ADAM 算法 计算 权重 调整 的 幅度 ， 然 后 以 和 梯度 相反 的 方向 更 新 权重 。 这 样 ， 训 练 中 的 一 个 步 
又 或 者 说 轮 次 就 完成 了 。 接 下 来 只 需要 对 Fashion-MNIST 数据 集中 的 所 有 图 像 不 断 重 复 这 一 步骤 
即 可 。yarn train 命令 会 执行 多 个 轮 次 的 训练 (默认 为 5 个 轮 次 )。 在 模型 的 损失 值 收敛 后 ， 
将 其 存 到 硬盘 上 。 之 所 以 没有 保存 编码 器 部 分 ， 是 因为 后 续 在 浏览 器 中 的 演示 里 不 会 用 到 它 。 


代码 清单 10-8 ”VAE 的 训练 循环 〈 摘 目 fashion-mnist-vae/train.js ) 
for (let i1 = 0; 1 < epochs; i++) { 

console.log( \nEpoch #s${i} of S${epochs}\n ) 

for (let ] = 0; Jj < batches.length; J++) { 
const currentBatchSize = batches[j] .length 获取 (扁平 化 后 ) 的 Fashion-MNIST 
const batchedImages = batchIimages (batches{[]j]); 数据 集 图 像 批 次 
const reshapeqd = 

batchedImages.reshape([currentBatchSize, vaeOpts.originalDim]); 














optimizer.minimize(() => { 

const outputs = vaeModel .apply (reshaped); 

const loss = vaeLoss (reshaped, outputs, vaeOpts); 

process.stdout .write('.'); a 、 

6 一 个 轮 次 的 训练 :用 VAE 进行 
EngaTE 160 ("midssr", TEL [01): 预测 ， 计 算 预 测 的 损失 ， 然 后 

. 用 optimizer.minimize() 

return lJoss; 调整 模型 的 可 训练 权重 


上 
tf.dispose([batchedIimages, reshaped]); 
} 


console.1log(''); 








awalt generate (decoderModel, vaeOpts.latentDim); < 
J 
es a ei 在 每 个 训练 轮 次 的 尾声 ， 用 解码 器 生成 一 个 


进度 条 ， 必 须 将 状态 变化 手动 打印 出 来 


yarn watch 命令 启动 的 Web 应 用 程序 会 加 载 保存 好 的 解码 带 ， 然 后 用 它 生 成 和 图 10-8 类 
似 的 网 格 。 这 些 图 像 由 二 维 本 征 空间 的 网 格 里 规则 排列 的 本 征 向 量 获 得 。 可 以 通过 Web 应 用 程 
序 的 UI 调整 两 个 本 征 维度 的 上 下 限 。 

图 10-8 展示 了 Fashion-MNIST 数据 集中 不 同时 尚 物品 类 型 的 完全 连续 的 分 布 。 如 果 沿 着 一 
条 连续 的 轨迹 在 本 征 空间 中 移动 (例如 ， 从 工作 衫 到 连 帽 衫 、 到 裤子 、 到 鞭子， 再 到 鞋子 )， 一 
种 时 尚 物品 类 型 会 渐变 为 另 一 种 。 本 征 空间 中 部 分 区 域 的 特定 方向 有 些 特殊 的 含义 。 例 如 ， 在 本 
征 空间 中 接近 顶部 的 部 分 ， 横 向 维度 看 起 来 代表 的 是 “从 鞭子 到 鞋子 的 渐变 ”; 与 此 类 似 ， 在 本 
征 空间 的 右 下 角 部 分 ， 横 癌 维度 似乎 表示 的 是 “从 TT 恤衫 到 裤子 的 渐变 ”。 
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图 10-8 训练 后 采样 VAE 的 本 征 空间 的 结果 。 本 图 在 一 个 20 x 20 的 网 格 中 展示 了 解 
码 器 的 输出 。 它 对 应 于 均匀 分 布 的 20 x 20 的 二 维 本 征 向 量 网 格 。 其 中 每 个 维 
度 都 在 [-4, 4] 的 区 间 中 


下 一 节 中 将 介绍 另 一 种 能 够 生成 图 像 的 重要 模型 ，GAN。 


10.3 用 GAN 生成 图 像 


从 Ian Goodfellow 和 他 的 同事 于 2014 年 发 明 GAN "至 今 , 这 种 技巧 无 论 是 热度 还 是 成 熟 度 上 
都 取得 了 疾 速 的 发 展 。 当 下 ，GAN 已 是 一 个 生成 图 像 和 其 他 类 型 数据 的 强大 工具 。 它 们 可 以 生 
成 有 时 连 人 有 眼 都 无 法 分 辩 真 假 的 高 分 辨 率 岁 像 ( 参见 图 10-9 中 用 NVIDIA 的 StyleGAN 模型 生成 
的 人 脸 图 像 ) >”。 如 果 不 是 因为 面部 个 别 部 位 的 小 缺陷 和 看 起 来 不 那么 自然 的 背景 ， 人 有 眼 几乎 难 
以 分 辨 图 像 芮 假 。 














图 10-9 ”NVIDIA 的 StyleGAN 模型 生成 的 人 脸 图 像 示 例 


GD 参见 Ian Goodfellow、Jean Pouget-Abadie、Mehdi Mirza 等 人 于 2014 年 发 表 的 文章 “Generative Adversarial Nets”。 
@) 参见 Tero Karras 、Samuli Laine 和 Timo Aila 的 论文 “A Style-Based Generator Architecture for Generative Adversarial 
Networks 。 
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除了 “凭空 ”生成 令 人 叹服 的 副 真 图像 外 ，GAN 生成 的 图 像 还 可 以 通过 某 些 输入 数据 和 参 
数 进 行 调 六 。 这 样 一 来 就 催生 了 各 种 针对 不 同 任务 的 实用 应 用 。 例 如 ，GAN 可 以 从 低 分 辨 率 的 
输入 图 像 生成 高 分 辨识 图 像 ( 图 像 超 分 辨识 重 构 )、 填补 图 像 中 缺失 的 部 分 (图 像 修 复 )、 将 黑 日 
图 像 转换 成 彩色 的 ( 图 像 者 色 )， 以 及 根据 人 的 某 个 姿势 的 图 像 生成 同一 个 人 的 男 一 个 姿势 的 图 
像 。 此 外 , 还 有 些 新 研发 出 的 GAN 模型 可 以 生成 非 图 像 数 据 , 例如 音乐 。" 能 够 生成 无 限 多 的 副 
真 的 素材 ， 对 于 绘画 、 音 乐 和 游戏 设计 等 领域 有 巨大 的 价值 ,但 GAN 的 应 用 谍 围 不 止 于 此 。 它 
还 可 以 在 很 难 获得 训练 样 例 的 场景 中 ,通过 生成 训练 样 例 来 辅助 深度 学 习 。 例如 , 在 训练 目 动 芍 
驶 的 神经 网 络 的 场景 中 ， 可 以 用 GAN 来 生成 逼真 的 街景 。” 

尽管 VAE 和 GAN 都 是 生成 式 模型 , 但 它们 背后 的 概念 是 不 同 的 。VAE 通过 衡量 原 输 入 和 解 
但 需 输 出 的 MSE 损失 来 确保 生成 结果 的 质量 。 而 GAN 则 通过 判别 器 ( discriminator ) 确保 输出 
的 质量 。 我 们 之 后 会 介绍 它 是 什么 。 此 外 ，GAN 的 很 多 变种 不 仅 允 许 输入 本 征 空间 的 癌 量 ,而 
日 还 允许 约束 性 输入 , 例如 想 要 生成 的 图 像 类 别 。 稍 后 将 介绍 的 ACGAN 模型 就 是 这 种 模型 的 一 
个 好 例子 。 在 这 种 拥有 混合 输入 类 型 的 GAN 中 ， 本 征 空 间 关 于 网 络 的 输入 就 不 再 是 连续 的 了 。 

本 方 中 将 介绍 一 种 相对 简单 的 GAN。 具体 而 言 , 我 们 将 用 已 经 很 熟悉 的 MNIST 手写 数字 数 
据 集 训练 一 个 辅助 分 类 器 生成 式 对 抗 网 络 ( auxiliary classifier generative adversary network, 
ACGAN )“。 由 此 训练 得 到 的 模型 可 以 生成 以 假 乱 真 的 、MNIST 风格 的 数字 图 像 。 与 此 同时 ， 
得 益 于 ACGAN 采用 的 辅助 分 类 器 ( auxiliary classifier )， 我 们 还 可 以 控制 每 个 生成 的 图 像 的 类 别 
(0~9, 共 10 种 类 别 )。 我 们 将 分 步 逐 个 讲解 ACGAN 的 不 同 部 分 。 首 先 要 讲解 的 是 ACGAN 的 
基础 部 分 ， 即 “GAN ”部 分 的 工作 原理 。 随 后 将 进一步 介绍 ACGAN 为 了 能 够 控制 生成 的 图 像 
类 别 所 采取 的 一 些 额 外 机 制 。 


























10.3.1 GAN 背后 的 基本 概念 


GAN 是 如 何 做 到 生成 逼真 的 图 像 的 呢 ? 这 是 通过 模型 两 个 部 分 的 相互 作用 实现 的 ， 这 两 个 
部 分 分 别 是 生成 器 〈 generator ) 和 判别 器 ( discriminator )。 可 以 将 生成 锅 看 作 造 假 者 ， 它 的 目标 
是 创造 毕加索 画作 的 以 假 乱 真 的 碟 品 ; 将 判别 套 看 作 鉴定 专家 , 它 的 职责 是 辨别 眼前 的 作品 是 不 
是 夺 品 。 造 假 者 〈 生 成 器 ) 会 为 了 骗 过 鉴定 专家 (判别 融 ) 而 不 断 创造 越 来 越 再 真 的 民品 ， 而 鉴 
定 专 家 也 会 不 断 提 升 自己 的 鉴别 能 力 ， 从 而 避免 被 驴 。 这 两 个 部 分 的 对 立 ， 正 是 GAN 模型 的 名 
字 中 “对 抗 ”( adversarial ) 部 分 的 由 来 。 值 得 玩味 的 是 ， 正 是 造假 者 和 鉴定 专家 之 间 对 抗 ， 促 使 
这 两 个 部 分 的 能 力 都 得 到 了 提升 ， 尽 管 它们 在 设计 上 是 对 立 的 。 

在 最 开始 时 , 造假 者 (生成 硕 ) 还 不 是 很 擅长 制作 民品 ， 因 为 它 的 权重 是 随机 初始 化 的 。 故 
而 ,鉴定 专家 (判别 器 ) 不 需要 多 少时 间 就 能 学 会 辨别 作品 的 真 假 。 接 下 来 就 是 整个 流程 中 的 关 


























(参见 Hao-Wen Dong 等 人 的 MuseGAN 项 目 。 

@) 参见 James Vincent 的 文章 “Nvidia Uses AI to Make it Snow on Streets that Are Always Sunny ”。 

(3) 参见 Augustus Odena .Christopher Olah 和 Jonathon Shlens 的 文章 “Conditional Image Synthesis with AuxiliaryClassifier 
GANS 。 
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键 部 分 : 每 当 造 假 者 拿 一 个 新 的 蛮 品 给 鉴定 专家 看 时 ,鉴定 专家 都 会 给 予 造假 者 充分 的 反馈 信息 ， 
告诉 他 作品 的 哪些 部 分 有 待 改进 ,以 及 如 何 改 进 才能 更 允 真 。 造 假 者 会 对 反馈 进行 学 习 ， 并 在 下 
次 造假 时 改进 这 些 问题 ， 从 而 使 他 的 春 品 较 之 前 更 加 逼真 。 只 要 所 有 的 参数 设置 得 当 ， 通过 不 断 
重复 这 一 过 程 ， 造 假 者 ( 生成 器 ) 会 成 为 一 个 伪造 艺术 品 的 大 师 。 当 然 ， 鉴定 专家 的 段位 也 会 更 
上 一 层 楼 ， 但 等 GAN 训练 完成 后 ， 我 们 只 会 用 到 生成 需 部 分 。 

图 10-10 更 具体 地 展示 了 一 般 GAN 模型 判别 天 部 分 的 训练 原理 。 为 了 训练 判别 器 ， 先 要 准 
备 一 个 批 次 的 生成 图 像 和 一 个 批 次 的 真实 图 像 。 生 成 图 像 来 自生 成 絮 , 但 不 是 生成 融 凭 空 制造 出 
来 的 。 生 成 天 也 需要 一 个 随机 回 量 作为 输入 。 该 本 征 向 量 在 概念 上 和 在 10.2 方 中 对 VAE 使 用 的 
类 似 。 对 于 每 个 生成 器 生成 的 图 像 ， 本 征 回 量 是 个 一 维 的 张 量 ， 其 形状 为 [latentsize]。 但 和 
本 书 中 绝 大 部 分 训练 流程 一 样 ,训练 的 每 一 步 会 处 理 一 个 批 次 的 图 像 。 因 此 , 本 征 向 量 的 形状 为 
[batchSsize，1latentSize]。 真 实 图 像 则 是 直接 从 MNIST 数据 集 抽 取 的 。 为 了 和 训练 用 的 生 
成 图 像 的 数量 保持 一 致 ， 抽 取 的 真实 图 像 的 数量 也 由 batchsize 决定 。 

Wll 练 判别 器 


batchSize, 28, 28, 1] 


[batchSsize, latentSizel] [ 
[2 * pbatchSize, 28, 28, 1] 
[2 * batchSize, 1] 


判别 器 预测 结果 























Patealeiae, 1 通过 反问 


, 一 忆 
SS MO 下 其 
真实 图 像 [2 * batchSize, 28, 28, 1] 传播 更 新 




















图 10-10 训练 GAN 模型 判别 器 部 分 所 用 算法 的 示意 图 。 注 意 ， 为 了 简化 示意 图 ， 网 中 省 略 了 
ACGAN 的 数字 类 别 部 分 。 关 于 判别 需 训 练 的 完整 示意 图 ， 见 网 10-13 


生成 图 像 和 真实 图 像 随后 会 拼接 成 单个 图 像 批 次 , 表示 为 一 个 形状 为 [2 * patchSize，28， 
28,1] 的 张 量 。 判 别 瘟 会 处 理 这 个 拼接 后 的 图 像 批 次 ， 然 后 输出 每 个 图 像 为 真实 图 像 的 概率 值 。 
可 以 通过 二 元 交叉 入 损失 函数 轻松 地 将 这 些 输出 的 概率 值 和 真实 值 进 行 比 较 ( 因为 我 们 知道 哪些 
图 像 是 真 的 ， 哪 些 是 假 的 ) 随后 就 像 往 稼 一 样 ， 对 判别 带 部 分 进行 反 回 传播 ， 在 优化 带 的 指引 
下 更 新 它 的 权重 参数 ( 图 中 没有 展示 这 部 分 )。 通 过 这 一 步骤 ， 判 别 冀 的 预测 准确 率 会 得 到 进 一 
步 提高 。 注 意 ， 生 成 带 在 这 一 步 中 只 是 简单 地 提供 生成 的 图 像 ， 它 并 不 会 参与 到 反 向 传播 中 。 训 
练 流程 的 下 一 步 才 开始 更 新 生成 融 部 分 ( 见 图 10-11 )。 
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训练 生成 怖 
[batchSsize, latentSizel 人 [batchSize, 1] 
| 本 全 向 量 一 Ww 判别 器 (固化 ) 预测 结果 






通过 反 回 传播 更 前 
真实 度 标签 通过 反问 传播 更 新 
(“假装 ” 所 有 图 像 都 是 真 实 的 ) 


[batchSsi 





a 
人 








图 10-11 训练 GAN 模型 生成 器 部 分 所 用 算法 的 示意 图 。 注 意 ， 为 了 简化 示意 图 ， 图 中 省 略 了 
ACGAN 的 数字 类 别 部 分 。 关 于 生成 天 训练 的 完整 示意 图 ， 见 图 10-14 


图 10-11 展示 了 生成 带 的 训练 步 台 ， 先 让 生成 带 生成 一 个 新 批 次 的 图 像 。 但 和 判别 各 训练 步 
又 不 同 ， 这 一 步 不 需要 任何 真实 的 MNIST 图 像 。 判 别 带 会 收 到 这 个 生成 图 像 的 批 次 ， 及 其 对 应 
的 二 元 的 、 图 像 是 否 为 真 的 标签 。 我 们 假装 生成 的 图 像 是 真实 的 ， 然 后 将 真实 上 度 标 签 部 设 为 1。 
此 处 可 以 停 下 来 想 一 想 为 何 要 这 人 么 做 ， 因 为 这 是 GAN 训练 中 最 重要 的 一 个 技巧 。 这 些 图 像 当 然 
都 是 生成 的 ( 即 假 的 ),， 但 我 们 还 是 将 真实 性 标签 设 为 真 。 判 别 带 可 能 会 (正确 地 ) 判定 输入 图 
像 中 的 部 分 图 像 或 全 部 图 像 为 真 的 概率 非 第 低 。 如 果真 的 是 这 样 的话 ， 由 于 虚假 的 真实 性 标签 ， 
二 元 交 义 燃 损 失 值 会 非 第 大 ,反问 传 播 会 以 逐渐 提升 判别 副 输 出 的 真实 度数 值 的 方式 更 新 生成 胡 
的 权重 。 注 意 ,这 里 的 反 回 传播 只 会 更 新 生成 带 部 分 ,不 会 对 判别 胡 部 分 进行 任何 改动 。 这 是 万 
-个 关键 的 技巧 。 这 样 做 可 以 在 确保 生成 希 能 够 生成 越 来 越 逼 趴 的 图 像 的 同时 ,判别 硕 不 会 降低 
其 对 丰 假 的 辨别 力 。 此 处 使 用 的 技巧 和 第 5 草 中 介绍 迁移 学 习 时 使 用 的 相同 , 即 固化 模型 的 判别 
船 部分。 
现在 总 结 一 下 生成 带 的 训练 过 程 。 前 先是 固化 判别 带 层 ,然后 对 其 输入 全 部 为 1 的 真实 度 标 
签 输入 ,尽管 这 些 图 像 是 由 生成 融 生 成 的 。 由 此 ， 对 模型 进行 反 回 传播 ， 对 判别 硕 而 言 ， 经 过 权 
重 更 新 后 的 生成 琢 生 成 的 图 像 看 起 来 会 更 为 盟 呐 。 能够 这 样 训练 生成 带 的 前 提 是 ,判别 融 已 经 具 
备 较 好 的 分 ? 冰 能 力 。 那么 如 何 确 保 这 一 点 呢 ? 答 案 就 在 我 们 已 经 介绍 过 的 判别 侣 训练 步 又 中 。 
此 ， 如 你 所 见 ， 这 两 个 训练 步 又 间 有 种 微妙 的 阴阳 调和 关系 。 在 这 种 关系 中 ，GAN 模型 的 两 个 
部 分 互相 对 立 ， 又 互相 补益 。 
至 此 ， 一 般 GAN 模型 的 训练 流程 的 概 昂 就 介绍 完毕 了 。 下 一 市 中 ， 我 们 将 进一步 了 解 生 成 
大和 判别 带 的 内 部 染 构 ， 以 及 将 生成 图 像 的 类 别 也 融入 模型 中 。 
























































10.3.2 ACGAN 的 基本 组 成 部 分 


代码 清单 10-9 展示 了 MNIST 数据 集 的 ACGAN 的 TensorFlowjs 代码 ( 摘 目 mnist-acgan/gan.js )。 
判别 大 的 核心 是 和 第 4 革 中 convnet 类 似 的 深度 convnet。 它 的 输入 形状 和 MNIST 数据 集中 图 像 
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的 标准 形状 相同 ， 即 [28，28，1]。 输 入 图 像 会 经 过 4 个 二 维 卷 积 层 ( conv2d ) 的 处 理 ， 然 后 其 
结果 会 被 扁平 化 , 并 传人 后 续 的 两 个 密集 层 中 。 第 一 个 密集 层 会 针对 输入 图 像 输出 一 个 二 元 的 预 
测 结果 ， 第 二 个 密集 层 则 会 针对 10 个 数字 类 别 生 成 其 由 归 一 化 指数 函数 得 到 的 概率 值 。 判 别 需 
是 个 函数 式 模型 ， 它 同时 拥有 两 个 密集 层 的 输出 。 图 10-12a 展示 了 判别 器 “ 单 输入 - 双 输 出 ”的 











拓扑 结构 。 
代码 清单 10-9 创建 ACGAN 的 判别 器 部 分 


function buildDiscriminator() f{ 


const cnn = tf.sequential(); 


cnn.add (tf.layers.conv2d(t 





filters: 32, 
kernelSize: 3， 
padding: 'same', . 
strides: 2, 判别 器 仅 有 一 个 输入 ， 其 形状 和 和 MNIST 
inputShape: [IMAGE SIZE, IMAGE SIZE, 1] 数据 集中 图 像 的 标准 形状 相同 
})); 
cnn.add (tf.layers.leakyReLU({alpha: 0.2})); rope 层 用 于 应 对 过 
cnn.add (tf.layers.dropout ({rate: 0.3})); 拟 合 
cnn.add (tf.layers.conv2dl 
{filters: 64, kernelSize: 3, padding: 'same', strides: 1})); 
cnn.add (tf.layers.leakyReLU({alpha: 0.2})); 
cnn.add (tf.layers.dropout ({rate: 0.3})); 
cnn.add (tf.layers.conv2dl 
{filters: 128, kernelSize: 3, padding: 'same', strides: 2})); 
cnn.add (tf.layers.leakyReLU({alpha: 0.2})); 
cnn.add (tf.layers.dropout ({rate: 0.3})); 
cnn.add (tf.layers.conv2dl 
{filters: 256, kernelSize: 3, padding: 'same', strides: 1})); 
cnn.add (tf.layers.leakyReLU({alpha: 0.2})); 
cnn.add (tf.layers.dropout ({rate: 0.3})); 0 
判别 器 的 第 一 个 输出 : 
守 诬 一 开外 漆 的 对 
on add {tt Tayere. Tiattent)d > 真实 度 二 元 分 类 的 结果 








tf.input ({shape: 
const features = 


const image = 
cnn.apply (image);} 


const realnessScore = 
tf.layers.dense({units: 

tf.layers.dense({units: 
.apply (features).; 


Const aux = 


return tf.model({inputs: image, 


[ IMAGE SIZE, 
1, activation: 'sigmoid'}) .apply (features);} | 


outputs: 


IMAGE_SIZE, 1|]}); 





NUM CLASSES, activation: 'softmax'}) 


aux]}); 


判别 器 的 第 二 个 输出 : 针对 10 个 数字 
类 别 ， 由 归 一 化 指数 函数 得 到 的 概率 值 


[realnessScore, 
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a. 判别 器 内 部 的 拓扑 结构 
d 


conv2d conv2d Conv2 


conv2d 
数字 类 别 
b. 生成 器 内 部 的 拓扑 结 栓 


multiply conv2dTranspose pe| conv2dTranspose p>| conv2dTranspose 
数字 类 别 embedding 









Dense 
sigmoid 


输入 图 像 
Dense 
softmax 








图 10-12 ACCGN 判别 器 部 分 (图 10-12a ) 和 生成 器 部 分 (图 10-12b ) 内 部 拓扑 结构 





的 示意 图 。 为 了 简化 示意 图 ， 省 略 了 部 分 细 市 (判别 右 的 dropout 层 )。 具 体 
代码 参见 代码 清单 10-9 和 代码 清单 10-10 


代码 清单 10-10 负责 创建 ACGAN 的 生成 器 部 分 。 正 如 之 前 所 讲 过 的 ， 生 成 咒 的 生成 过 程 需 
要 一 个 本 征 向 量 (对 应 代码 中 的 latent ) 作为 输入 。 第 一 个 密集 层 的 inputShape 参数 体现 了 
这 一 点 。 如 果 仔 细 观 察 代码 ， 会 看 到 生成 絮 实 际 有 两 个 输入 ， 图 10-12 中 展示 了 这 一 点 。 除 了 本 
征 问 量 ( 它 是 形状 为 [latentsize] 的 一 维 回 量 ) 外 ， 生 成 融 还 有 个 额外 的 输入 ， 叫 作 
imageClass， 其 形状 为 [1]。 我 们 正 是 通过 这 个 输入 告诉 模型 应 该 生成 MNIST 数据 集中 的 哪 种 
数字 类 别 (0 ~9 )。 例如， 如 果 我 们 想 生 成 一 个 包含 数字 8 的 图 像 ， 那 么 应 该 用 tf.tensor2q 
([[8]]) 作 为 第 二 个 输入 (注意 模型 的 输入 必须 是 批 次 张 量 ， 尽 管 只 有 一 个 输入 样 例 )。 同 理 ， 
如 采 想 用 模型 针对 数字 8 和 数字 9 生成 两 个 图 像 ， 那 么 输入 就 是 tensor2d([[8]，[91])。 

imageClass 输入 生成 吾 后 , 一 个 胎 入 层 会 将 它 转 换 为 和 latent 相同 的 形状 ( [latentsize] )。 
这 一 步 与 我 们 在 第 9 草 的 情感 分 析 模型 和 日 期 格式 转换 模型 中 使 用 的 查询 通信 回 量 的 方法 在 数 
学 上 很 相似 。 就 和 情感 分 析 问 题 中 的 单词 索引 ， 以 及 日 期 格式 转换 问题 中 的 字符 索引 一 样 ， 想 要 
生成 的 数字 类 型 也 是 一 个 整数 , 它 被 转换 为 一 维 癌 量 的 方式 和 单词 索引 与 字符 索引 被 转换 成 一 维 
张 量 的 方式 也 基本 一 样 。 人 然而， 此 处 为 imageclass 获取 租 入 回 量 的 目的 与 之 前 不 同 ， 此 处 的 
目的 是 将 它 与 本 征 向 量 相 融合 成 一 个 新 的 向 量 ( 即 代码 清单 10-10 中 的 n )。 这 种 融合 是 通过 
multiply 层 实 现 的 。 该 层 会 对 两 个 形状 相同 的 癌 量 进行 逐 元 素 相 乘 ， 由 此 得 到 的 张 量 形状 和 输 
人 人 相同。 该 张 量 随 后 会 被 传人 入 生成 磋 中 。 紧 接着 是 密集 层 ， 它 会 将 融合 后 的 本 征 张 量 (hn ) 调整 
为 形状 为 [3，3，384] 的 三 维 张 量 。 由 此 得 到 张 量 已 经 和 图 像 类 似 ， 之 后 将 由 生成 带 的 后 续 部 
分 转换 成 一 个 和 MNIST 数据 集 的 标准 形状 ( [28，28，1] ) 匹配 的 图 像 。 

生成 融会 使 用 conv2dTranspose 层 转 换 图 像 张 量 ， 而 不 是 使 用 熟悉 的 conv2d 层 。 可 以 将 
conv2dTranspose 粗略 地 看 作 conv2d 的 逆 运 算 。 它 有 时 也 被 叫 作 反 卷 积 〈deconvolution )。conv2d 
层 的 输出 一 般 比 输入 的 高 和 宽 要 小 (除了 kernelsize 的 这 种 罕见 情况 外 )。 第 4 章 中 介绍 过 的 
convnet 验证 了 这 一 点 。 然 而 ，conv2dTranspose 与 此 相反 ,， 它 的 输出 的 高 千 反 而 更 大 。 换言之 ， 
conv2d 一般 会 收缩 输入 的 维度 ， 而 conv2dTranspose 则 会 扩张 它们 。 这 就 是 为 什么 在 生成 右 中 ， 
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第 一 个 conv2dTranspose 层 输 入 尺 才 的 高 和 宫 为 3， 而 最 后 一 个 conv2dTranspose 层 和 输出 尺 二 的 高 
和 宽 为 28。 生 成 天 正 是 靠 这 种 方法 将 输入 的 本 征 回 量 和 数字 索引 转换 为 和 MNIST 数据 集 的 标准 
尺寸 匹配 的 图 像 。 代 码 清单 10-10 摘自 mnist-acgan/gan.js， 其 中 为 了 只 展示 代码 的 核心 部 分 而 省 
略 了 异常 处 理 代 人 码 。 


代码 清单 10-10 ”创建 ACGAN 的 生成 器 部 分 





function buildCGenerator(latentSize) { 选用 这 个 单元 数 是 为 了 确保 ， 密 集 层 输 出 形 
const cnn = tf.sequential(); 状 调整 并 传 入 后 续 的 conv2dTranspose 层 
后 , 最 终 输 出 的 张 量 形状 和 MNIST 数据 集 的 

cnn.add (tf.layers.densel(t 标准 形状 (128，28，11) 完全 匹配 


units: 3 * 3 * 384, 
inputShape: [latentSizel], 
actijvation: 'relu' 


ee 
cnn.add (tf.layers.reshape({targetShape: [3, 3, 384]})); 


cnn.add (tf.layers.conv2dTransposelt 
filters: 192, 从 [3，3，...] 升 采样 至 [7，7，...] 


kernelSize: 5, 





strides: 1, 
padding: 'valid', 

activation: 'relu', 
kernelInitializer: 'glorotNormal' 


})); 


cnn.add (tf.layers.batchNormalization());} 


cnn.add (tf.layers.conv2dTransposelt < 一 一 一 升 采样 至 [14，14，...] 
filters: 96, 
kernelSize: 5, 
SEELCeSs 2; 
padding: 'same', 
activation: 'relu', 
kernelInitializer: 'glorotNormal' 
})); 


cnn.add (tf.layers.batchNormalization());} 


cnn.add (tf.layers.conv2dTransposelt < 一 一 一 升 采 样 至 [28，28，...] 
filters: 1, 
kernelSize: 5, 
strides: 2, 





padding: 'same', 

有 CE On "tanh', 生成 器 的 第 一 个 输入 : 用 作 

kernelIinitializer: 'glorotNormal' 图 像 生 成 的 “种 子 ” 数 据 的 
ys 本 征 向 量 (z 向 量 ) 
const latent = tf.input({shape: [latentSize]}); < 
const imageClass = tf.input({shape: [1]}); 





GOst classnmnbedding = te layeres, embeddindg (ll 4 Ce— 生成 器 的 第 二 个 输入 : 控制 生 
inputDim: NUM_CLASSES ， 成 图 像 的 类 别 标 签 (10 种 
ititnims Latentedize, MNIST 数字 类 别 之 一 ) 


通过 获取 藤 入 向 量 , 将 所 要 的 标签 转换 
为 一 个 长 度 为 latentsize 的 向 量 
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embeddingsInitializer: 'glorotNormal' 
}) .apply (imageClass); 


const h = tf.layers.multiply() .apply ( 


[latent, classEmbedding|]); 
通过 乘法 运算 ， 将 本 征 


const fakeImage = cnn.apply (h); 向 量 和 类 别 的 能 入 向 
return tf.modell(t 量 结合 在 一 起 
inputs: [latent, imageClass], 
outputs: fakeImade 
}); 模型 创建 完成 。 其 核心 是 
) 个 顺序 convnet 模型 


10.3.3 ”详解 ACGAN 的 训练 流程 


通过 上 一 节 的 介绍 , 你 现在 应 该 能 够 更 好 地 理解 ACGAN 的 判别 器 和 生成 器 的 内 部 结构 ， 以 
及 如 何 将 生成 图 像 的 类 别 信息 ( 即 ACGAN 名 字 中 的 “AC” 部 分 ) 融入 模型 中 。 有 了 这 些 知识 
储备 后 ， 就 可 以 进一步 扩展 图 10-10 和 图 10-11， 从 而 更 透彻 地 理解 ACGAN 的 训练 流程 。 

图 10-13 是 图 10-10 的 扩展 版 , 展示 了 ACGAN 判别 器 部 分 的 训练 过 程 。 和 之 前 相 比 ， 这 一 
训练 步骤 不 仅 会 提升 判别 需 分 辩 真 实 图 像 和 生成 图 像 ( 即 伪造 图 像 ) 的 能 力 ， 还 会 锻炼 它 判 别 
给 定 的 图 像 (包括 真实 图 像 和 伪造 图 像 ) 所 属 数字 类 别 的 能 力 。 为 了 方便 和 之 前 的 简化 版 示意 
图 做 比较 ， 我 们 将 之 前 在 图 10-10 中 见 过 的 部 分 标 为 灰色 ， 并 突出 了 新 加 的 部 分 。 首 先 ， 注 意 
生成 希 现 在 有 个 额外 的 输入 [数字 类 别 〈digit class ) ]， 可 以 用 它 配置 生成 带 生 成 的 数字 类 别 。 
此 外 ， 判 别 融 输出 不 仅 包 括 真 实 度 预测 ， 还 包括 数字 类 别 预 测 。 因 此 ， 判 别 咒 的 两 个 输出 的 头 
部 层 都 需要 训练 。 真 实 度 预测 部 分 的 训练 过 程 还 和 之 前 一 样 ( 见 图 10-10 )。 类 别 预测 部 分 的 训 
练 则 依赖 于 提前 知道 生成 图 像 的 数字 类 别 和 真实 图 像 的 数字 类 别 。 模 型 的 两 个 涉 部 层 会 用 不 同 
的 损失 困 数 进行 编译 ， 体 现 出 两 种 预测 的 不 同 特质 。 真 实 度 预测 会 使 用 二 元 交叉 箭 作为 损失 顺 
数 ， 数 字 类 别 预测 则 会 使 用 稀 跑 的 分 类 交叉 燃 作为 损失 吧 数 。 配 置 方 法 参见 mnist-acgan/gan.js 
文件 中 的 这 一 行 : 
































discriminator.compilel(t 
optimizer: tf.train.adam(args.learningRate, args.adamBetal), 
loss: ['binaryCrossentropy', 'sparseCategoricalCrossentropy'] 


}); 


如 图 10-13 中 的 两 个 弧 线 箭头 所 示 ， 在 更 新 判别 器 权重 的 过 程 中 ， 由 反 疝 传播 得 到 的 两 个 损 
失 的 梯度 会 被 相 加 。 图 10-14 是 图 10-11 的 扩展 版 。 它 展示 了 ACGAN 生成 融 部 分 的 具体 训练 流 
程 。 示意 图 展示 了 生成 器 如 何 根据 输入 的 数字 类 别 生成 正确 的 图 像 , 以 及 如 何 学 习 生 成 和 逼真 的 图 
像 。 和 图 10-13 类 似 , 新 添加 的 部 分 被 突出 显示 ,而 之 前 在 图 10-11 展示 过 的 部 分 则 标 为 了 灰色 。 
从 突出 显示 的 部 分 可 以 看 出 , 输入 模型 训练 流程 的 标签 张 量 现 在 不 仅 包括 真实 度 标签 , 还 包括 数 
字 类 别 标签 。 就 和 之 前 一 样 ， 真 实 度 标签 是 故意 写成 这 样 的 。 但 新 添加 的 生成 数字 类 别 标签 则 更 
贴近 现实 ， 因 为 这 些 标签 确实 就 是 传人 生成 器 的 标签 。 
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训练 判别 器 
(包含 数字 类 列 信息 ) 


本 征 癌 量 生成 强 伪造 图 像 


[batchSize, 1] 


真实 度 预测 
eT 结合 后 的 关 | 别 器 下 * batchSize，10] 
数字 类 别 


类 别 预 测 
通过 反问 
传播 更 新 












A 
各 


- A 
关 扩 人 才 \ 和 


真实 图 像 


问 
将 
汝 


传播 更 新 





Binary 
cross-entropy loss 


结合 后 的 类 别 标 签 
[2 * batchSize, 1] 


多 元 交 又 炉 损 失 





图 10-13 ACGAN 判别 右 部 分 的 训练 算法 示意 图 。 本 图 扩展 了 图 10-10, 展示 了 和 数字 
类 别 相 关 的 部 分 。 已 经 在 图 10-10 出 现 过 的 部 分 用 灰色 显示 


训练 生成 器 


(包含 数字 类 别 信息 ) 


[batchSize, 1] 





数字 类 别 


真实 度 预测 
站 [batehsize, 10] 
类 别 预 测 







通过 反 回 传播 更 新 
真实 度 标签 


(“假装 ”所 有 图 像 都 是 真实 的 ) 通过 反问 传播 更 新 


二 元 交 叠 损失 


多 元 交叉 烂 损失 


图 10-14 ACGAN 生成 融 部 分 的 训练 算法 示意 图 。 本 图 扩展 了 图 10-11, 展示 了 和 数字 
类 别 相 关 的 部 分 。 已 经 在 图 10-11 出 现 过 的 部 分 则 用 灰色 显示 


之 前 ， 我 们 见 过 全 是 1 的 真实 度 标 签 和 判别 大 真实 度 概 认输 出 的 差距 ， 它 会 补 用 来 更 新 
ACGAN 的 生成 六 ， 使 其 能 够 更 好 地 “ 骗 过 ”判别 促 。 此 处 ， 判 别 副 的 数字 类 别 预 测 的 作用 与 其 
类 似 。 例 如 ,如 有 果 我 们 指定 生成 大 要 生成 一 个 包含 数字 8 的 图 像 , 但 判别 融 将 图 像 分 类 为 数字 9， 


结合 后 的 类 别 标签 
[batchSize, 1] 
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那么 稀 葡 的 分 类 交叉 精 就 会 很 高 ,并且 其 对 应 的 梯度 值 也 会 很 大 。 因 此 ， 对 和 后 成 带 权 重 的 更 新 会 
导致 生成 名 (按照 判别 融 的 评判 标准 ) 生成 长 得 更 像 效 字 8 的 图 像 。 显 然 这 种 生成 带 的 训练 方法 
只 有 在 判别 器 已 经 足够 擅长 将 网 像 划 入 10 种 MNIST 数字 类 别 的 情况 下 才 适 用 。 之 前 的 判别 器 训 
练 步骤 确保 了 这 一 点 。 此 处 , 我 们 又 见 到 了 在 ACGAN 模型 的 训练 过 程 中 , 它 的 判别 右 部 分 和 生 
成 角 部 分 吓 如 何 做 到 阴阳 调和 的 。 


GAN 的 训练 流程 .各 种 训练 技巧 的 组 合 拳 
众所周知 ，GAN 模型 的 训练 和 调 参 非常 困难 。 针 对 MNIST 数据 集 的 ACGAN 示例 中 展示 的 
训练 脚本 是 研究 者 大 量 试 错 的 结晶 。 就 和 深度 学 习 领 域 的 绝 大 部 分 事情 一 样 ， 它 们 更 接近 艺术 ， 
而 不 是 科学 : 这 些 技巧 属于 经 验 法 则 , 而 不 是 系统 理论 。 它们 来 自 对 身边 现象 的 直觉 理解 。 同时， 
事实 证 明 ， 它 们 也 确实 是 有 效 的 ， 尺 管 并 不 是 每 个 场景 中 都 有 效 。 
下 面 是 本 节 中 介绍 的 ACGAN 模型 使 用 的 一 些 值得 注意 的 技巧 。 
口 生成 大 最 后 的 conv2dTranspose 层 使 用 tanh 作为 其 激活 也 数 。tanh 激活 函数 在 其 他 模型 类 
型 中 不 是 很 常见 。 
口 随机 性 有 助 于 促进 稳健 性 。 因 为 GAN 模型 的 训练 有 可 能 会 进入 动态 平衡 状态 ( dynamic 
equilibrium )， 所 以 它 可 能 会 因为 各 种 原因 而 卡 住 。 为 训练 过 程 引 入 随机 性 可 以 帮助 避免 
这 种 问题 。 我 们 使 用 了 两 种 方法 引入 随机 性 : 一 是 在 判别 器 中 使 用 dropout 层 ， 二 是 使 用 
“近似 1”( 0.95 ) 的 值 作为 判别 硕 的 真实 度 标 签 。 
口 稀 玻 梯度 值 ( 即 包 含 很 多 零 的 梯度 值 ) 会 阻碍 GAN 模型 的 训练 。 在 别 的 深度 学 习 模型 类 
型 中 ， 稀 臣 往 往 是 好 事 ,， 在 GAN 模型 中 却 不 尽 然 。 有 两 个 因素 会 导致 稀 玻 的 梯度 : 一 是 
最 大 池 化 运算 ， 二 是 ReLU 激活 函数 。 降 采样 应 使 用 采用 了 一 定 步 幅 ( stride ) 的 卷 积 ， 
而 不 是 使 用 最 大 池 化 层 。 这 正 是 代码 清单 10-10 中 的 生成 器 所 使 用 的 方法 。 与 其 使 用 一 般 
的 ReLU 激活 函数 ， 不 如 使 用 leakyReLU 激活 函数 ， 它 的 负数 部 分 允许 较 小 的 负 值 ， 而 
不 是 必须 为 零 。 代 码 清单 10-10 中 也 体现 了 这 一 点 。 












































10.3.4 见证 针对 MNIST 数据 集 的 ACGAN 模型 的 训练 和 图 像 生成 


可 以 用 下 面 的 命令 获取 针对 MNIST 数据 集 的 ACGAN 模型 ( mnist-acgan ) 示例 。 


git clone https://github.com/tensorflow/tfjs-examples.git 
cd tfjs-examples/mnist-acgan 





yarn 

模型 的 运行 可 以 分 为 两 个 步骤: 一 是 在 Nodejs 环境 中 训练 模型 ， 二 是 在 浏览 器 环境 中 生成 
图 像 数 据 。 用 下 面 的 命令 局 动 模型 的 训练 流程 。 

yarn train 


默认 情况 下 ， 训 练 流程 会 使 用 tfjs-node 模块 。 然 而 ， 就 和 之 前 见 过 的 convnet 相关 示例 一 
样 ， 使 用 tfjs-node-gpu 模块 可 以 极 大 地 提升 训练 速度 。 如 果 你 的 计算 机 配 有 和 CUDA 兼容 的 
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GPU， 可 以 在 yarn train 命令 中 加 入 --gpu 选项 来 启用 它 。 训 练 ACGAN 要 花费 至 少数 个 
小 时 。 因 为 训练 任务 会 长 时 间 运 行 ， 所 以 可 以 通过 --logDir 选项 启用 TensorBoard 工具 来 监 
测 训 练 的 进展 。 


yarn train --logDir /tmp/mnist-acgan-logs 
用 下 面 的 命令 在 男 一 个 终端 中 启动 TensorBoard 进程 : 
tensorboard --logdir /tmp/mnist-acgan-logs 


之 后 就 可 以 在 浏览 器 中 跳 转 到 TensorBoard 的 URL ( TensorBoard 服务 器 进程 启动 后 会 在 终 
端 中 打印 出 TensorBoard 的 URL ), 然后 查看 模型 的 损失 曲线 。 图 10-15 展示 了 训练 过 程 产生 的 一 
些 损 失 曲 线 的 示例 。 这 些 GAN 模型 的 损失 曲线 有 一 个 独 有 的 特征 ， 即 它们 并 不 像 其 他 类 型 神经 
网 络 的 损失 曲线 一 样 是 呈 单 调 下 降 趋 热 的 。 相 反 ， 判 别 絮 (图 中 的 aLoss ) 和 生成 器 〈 图 中 的 
gLoss ) 的 损失 曲线 并 不 是 单调 上 升 或 下 降 的 ， 而 是 在 变化 中 维持 着 一 种 错综复杂 的 关系 。 








TensorBoard SCALARS 





加 Show data download links Q Filter tags (regular expressions supported) 


lgnore outliers in chart scaling 阿 
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Toottip sorting method: default 
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Smoothing 
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STEP RELATIVE WALL 0 

















Rn: 
Runs “ 呈 纪 
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图 10-15 ACGAN 训练 过 程 中 产生 的 损失 曲线 示例 。gdLoss 代表 训练 判别 大 时 的 损失 
曲线 。 具 体 而 言 ， 它 是 真实 度 预测 的 二 元 交叉 箭 和 数字 类 别 预测 的 稀 玻 的 分 
类 交 又 炉 的 总 和 。gLoss 代表 训练 生成 万 时 的 损失 曲线 。 和 dLoss 类 似 ， 
gLoss 是 真实 度 的 二 元 分 类 损失 值 和 数字 的 多 分 类 损失 值 的 总 和 
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在 训练 的 尾声 ， 判 别 夯 和 生成 名 的 损失 痢 没 有 趋 近 于 零 ， 只 是 俘 止 了 变化 〈 即 收 人 银 了) 至 
此 ,训练 流程 就 结束 了 ,模型 的 生成 途 部 分 会 被 保存 到 便 盘 上 。 之 后 在 浏览 带 中 进行 的 生成 步 又 
会 用 到 它 。 


await generator.save (saveURL).; 


可 以 使 用 yarn watch 命令 在 浏览 郁 中 运行 图 像 生 成 的 示例 程序 。 该 命令 会 编译 
mnist-acgan/index.js 文件 和 相关 的 HTML 和 CSS 文件 。 编译 完成 后 , 浏览 磊 中 会 弹出 一 个 新 的 标 
签 页 ， 显示 示例 程序 的 界面 。* 

示例 程序 会 先 加 载 上 一 阶段 训练 好 的 ACGAN 生成 锅 。 由 于 判别 融 在 这 一 阶段 并 没有 实际 用 
处 ， 因 此 之 前 没有 保存 它 ， 现 在 也 没有 必要 加 载 它 。 加 载 好 生成 需 后 ， 可 以 开始 创建 一 个 本 征 回 
量 批 次 ,以 及 一 个 表示 想 要 生成 的 数字 类 别 的 索引 组 成 的 批 次 。 两 个 批 次 创建 完毕 后 ， 就 可 以 将 
它们 作为 参数 ， 调 用 生成 锅 的 predict() 方 法 。 下 面 的 代码 展示 了 这 一 过 程 (摘自 mnist- 
acgan/index.js )。 


getLatentVectors(10);} 
tf.tensor2d( 


const latentVectors 


const sampledLabels 


[Vs Es ZF Ss dy De Cy ds Cy ds Ll0s Ly» 
const generatedIimages = 
generator.predict([latentVectors, sampledLabels]).add(1) .div(2); 





数字 类 别 标签 的 批 次 总 是 一 个 向 量 , 其 中 0 ~ 9 的 10 个 元 素 会 有 序 排列 。 这 就 是 为 何 生成 的 
图 像 批 次 总 是 一 个 含有 0 ~9 数字 的 有 序数 组 。tf.concat () 图 数 会 将 这 些 网 像 拼 接 在 一 起 ， 然 
后 在 页 面 中 的 div 元 素 里 将 它 演 染 出 来 (参见 图 10-16 顶部 的 图 像 )。 和 随机 采样 的 MNIST 数据 
集中 的 真实 图 像 (参见 图 10-16 底部 的 图 像 ) 相 比 ， 这 些 由 ACGAN 模型 生成 的 图 像 毫 不 逊色 。 
此 外 , 它们 的 数字 标签 也 和 预期 的 一 样 。 这 证 明 我 们 对 ACGAN 模型 的 训练 是 成 功 的 。 如 有 果 想 继 
续 测 试 ACGAN 生成 套 的 图 像 生成 能 力 ， 单 击 页 面 上 的 “Generator” 按 钮 。 每 次 单 击 该 按钮 ， 模 
型 都 会 生成 一 个 新 的 由 10 个 生成 的 图 像 组 成 的 批 次 。 你 可 以 继续 探索 图 像 生成 的 结果 ， 以 此 来 
直观 地 感受 模型 生成 的 图 像 质量 。 














J 你 也 可 以 跳 过 训练 和 编译 步骤 , 直接 访问 提前 准备 好 的 示例 程序 , 参见 本 书 图 灵 社 区 页 面 : http://ituring.cn/book/2813。 
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图 10-16 
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Fake images (generation took 68.33 ms) 
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训练 好 的 ACGAN 模型 的 生成 器 生成 的 图 像样 本 ( 顶部 尺寸 为 10 x 1 的 子 图 ), 作为 参照 ， 
底部 10 x 10 的 网 格 中 展示 了 MNIST 数据 集中 的 真实 图 像 。 如 果 单 击 “Show z-vector sliders 
(100 dimensions)” 按 钮 ， 页 面 会 显示 一 个 新 区 域 ， 该 区 域 中 有 100 个 滑 块 (slider )。 可 以 
通过 这 些 滑 块 改变 本 征 向 量 (z 向 量 ) 的 元 素 ， 然 后 观察 它们 会 如 何 影 响 生 成 的 图 像 。 注 
意 ， 如 果 一 次 只 改变 一 个 滑 块 ， 那 么 绝 大 部 分 情况 下 ， 生 成 的 图 像 并 不 会 有 显著 变化 。 
但 偶尔 会 有 一 两 个 滑 块 能 对 生成 图 像 造成 肉眼 可 见 的 影响 
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口 GAN Lab, 一 个 基于 TensorFlow.js 的 交互 式 Web 应 用 程序 , 可 用 于 理解 和 探索 GAN 的 工 


作 原 理 。 它 的 作者 为 Minsuk Kahng 及 其 同事 。 


10.5 练习 


(1) 除了 水 士 比 亚 作 品 数据 集 ， 基 于 LSTM 的 文本 生成 融 〈1lstm-text-generation ) 示例 还 有 其 
他 一 些 预 完 配 置 的 文本 数据 集 可 供 探索 。 试 着 用 这 些 文本 训练 模型 ， 并 观察 模型 的 效果 。 例 如 ， 
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可 以 用 未 压缩 的 TensorFlow.js 代码 作为 训练 集 。 在 模型 的 训练 中 和 训练 后 , 观察 生成 的 文本 是 否 
展现 出 下 列 JavaScript 代码 共有 的 模式 ， 以 及 混沌 值 的 变化 会 如 何 影响 这 些 模式 。 

a. 小 范围 内 的 模式 ， 例 如 编程 语言 中 的 关键 词 ( 比 如 “for” 和 “function”)。 

b. 中 等 范围 内 的 模式 ， 例 如 代码 一 行 一 行 的 排列 方式 。 

c. 大 范围 的 模式 ， 例 如 成 对 的 小 插 号 和 中 括号 ， 以 及 “function” 关 键 词 后 必须 跟随 一 对 小 
括号 和 一 对 大 括号 这 样 的 规则 。 

(2) 在 用 Fashion-MNIST 数据 集训 练 VAE 的 示例 ( fashion-mnist-vae ) 中 ,如 果 从 目 定 义 的 损 
失 滑 数 中 移 除 KL 散 度 项 ， 会 发 生 什 么 ”通过 修改 fashion-mnist-vae/model.js 中 的 vaeLoss() 搬 
数 《 见 代 人 码 清单 10-7 ) 来 验证 你 的 判断 。 从 本 征 空 间 采 样 的 图 像 ， 看 起 来 还 像 Fashion-MNIST 
数据 集中 的 图 像 吗 ?本 征 空 间 中 还 有 没有 可 供 人 解读 的 模式 ? 

(3) 在 用 MNIST 数据 集训 练 ACGAN 模型 的 示例 ( mnist-acgan ) 中 ， 试 着 将 10 个 数字 类 别 
缩减 至 5 个 (0 和 1 变 成 第 一 个 类 别 ，2 和 3 变 成 第 二 个 类 别 ， 以 此 类 推 )。 观 察 这 会 如 何 影 啊 
ACGAN 在 训练 后 的 输出 。 你 预期 由 此 生成 的 图 像 会 是 什么 样子 ?” 例 如， 如果 指定 想 要 生成 的 是 
第 一 种 类 别 的 图 像 ，ACGAN 实际 生成 的 图 像 会 是 什么 样子 ? 

提示 : 需要 修改 mnist-acgan/data.js 中 的 loadLabels () 限 数 、gan.js 中 的 NUM_CLASSES 浓 


上 厂 上 厂 


量 ， 以 及 index.js 中 的 generateAndVisualizeImages () 困 数 里 的 sampledLabels 变量 。 























10.6 小结 


口 生成 式 模 型 和 本 书 之 前 介绍 的 判别 式 模型 有 所 不 同 。 它 们 的 设计 目标 是 对 训练 集中 样 例 
的 生成 方式 和 统计 分 布 进行 建 模 。 因 此 ， 它 们 可 以 生成 符合 真实 样 例 分 布 的 人 造 样 例 。 
口 本 章 中 介绍 了 一 种 为 文本 数据 集 建 模 的 方法 : 下 个 字符 预测 。LSTM 可 以 用 于 执行 这 类 任 
务 。 通 过 不 断 地 循环 生成 下 个 字符 ， 最 终 可 以 生成 任意 长 度 的 文本 。 混 沌 值 可 以 用 来 控 

制 生成 文本 的 随机 性 ( 即 生 成 结果 的 不 可 测 程度 )。 

口 自动 编码 器 是 一 种 由 编码 器 和 解码 器 组 成 的 生成 式 模 型 。 首 先 ， 生 成 器 会 将 输入 数据 压 
缩 为 叫 作 本 征 癌 量 (又 叫 作 z 癌 量 ) 的 精简 表示 。 随 后 ， 解 码 融 会 尝试 仅 用 本 征 辐 量 重建 
输入 数据 。 经 过 训练 后 ， 编 码 需 会 变 成 一 个 高 效 的 数据 压缩 右 ， 而 解码 器 则 会 被 赋予 样 
例 的 统计 分 布 信息 。VAE 在 自动 编码 器 的 基础 上 ， 为 本 征 向 量 添 加 了 一 些 额 外 的 统计 约 
束 。 这 样 , 在 VAE 训 练 完 成 后 ， 由 这 些 本 征 向 量 组 成 的 本 征 空 间 就 会 展现 出 不 断 变 化 并 
且 可 解读 的 结构 。 

口 GAN 模型 依托 于 判别 需 和 生成 器 间 同 时 存在 的 合作 关系 与 竞争 关系 。 判 别 需 会 尝试 辨别 
给 定 的 图 像样 例 是 真实 的 还 是 生成 的 。 生 成 右 的 目标 则 是 生成 能 够 “ 骗 过 ”判别 絮 的 伪 
造 样 例 。 通 过 将 判别 器 和 生成 器 结合 训练 ， 生 成 器 部 分 最 终 学 会 了 生成 以 假 乱 真 的 样 例 。 
ACGAN 模型 进一步 增强 了 基本 的 GAN 模型 架构 。 在 ACGAN 中 ， 可 以 通过 输入 类 别 信 
息 指 定 生成 数据 的 类 别 。 
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本 章 要 扣 

口 强化 学 习 和 前 几 章 中 介绍 的 监督 式 学 习 有 何不 同 。 

口 强化 学 习 的 基本 范式 一 一 智能 体 、 环 境 、 行 为 、 奖 励 ， 以 及 它们 之 间 的 互动 。 
D 解决 强化 学 习 问 题 的 两 种 主要 方法 一 一 宋 略 法 和 价值 法 ， 及 其 背后 的 思想 。 








在 本 章 之 前 ,本 书 都 聚焦 于 同一 种 机 需 学 习 类 型 ， 即 监督 式 学 习 。 在 监督 式 学 习 中 , 训练 好 
的 模型 会 根据 输入 信息 输出 正确 的 答案 。 无 论 是 预测 输入 图 像 的 类 别 标签 ( 参见 第 4 音 )， 还 是 
根据 过 去 的 气象 数据 预测 未 来 的 气温 (参见 第 8 章 和 第 9 章 )， 使 用 的 都 是 同一 个 范式 : 将 静态 
的 输入 映射 到 静态 的 输出 。 第 9 章 和 第 10 章 中 介绍 的 序列 生成 模型 要 稍微 复杂 些 ， 因 为 它们 输 
出 的 是 一 个 序列 ， 而 不 是 单个 数值 或 类 别 。 但 是 ,如果 将 序列 拆 分 成 更 小 的 部 分 , 那 还 是 可 以 将 
这 些 问 题 变 成 单 输入 到 单 输出 的 映射 。 

本 章 将 聚焦 于 另 一 种 机 需 学 习 类 型 : 强化 学 习 ( reinforcement learning，RL )。RL 的 主要 日 
标 并 不 是 输出 静态 的 数据 ， 而 是 通过 训练 模型 ( 在 RL 领域 中 叫 作 智 能 体 ， 即 agent )， 使 其 能 在 
特定 环境 中 执行 某 些 行 为 ， 从 而 最 大 化 一 种 叫 作 奖 励 (reward ) 的 度量 任务 成 功 程度 的 指标 。 例 
如 ， 可 以 用 RL 训练 机 右 人 在 建筑 物 中 目 动 行走 ， 回 收 垃圾 。 事 实 上 ， 环境 并 不 一 定 是 看 得 见 摸 
得 着 的 , 它 可 以 是 任何 智能 体能 够 在 其 中 执行 某 些 行为 的 虚拟 或 非 虚拟 空间 。 例 如 ,训练 智能 体 
下 国际 象棋 时 ,棋盘 就 是 环境 ; 训练 智能 体 交 易 股 票 时 ， 股 市 就 是 环境 。RL 范式 的 普 适 性 ， 意 
味 着 它 可 以 解决 各 种 类 型 的 实际 问题 ( 见 图 11-1 )。 同 时 ， 深 度 学 习 革 命中 一 些 最 令 人 惊叹 的 发 
展 都 结合 了 深度 学 习 和 RL 的 威力 ， 这 包括 能 够 以 超人 类 技巧 通关 雅 达 利 游 戏 的 人 工 智 能 玩家 ， 
以 及 能 够 在 围棋 和 国际 象棋 赛场 上 击败 人 类 世界 冠军 的 下 棋 算 法 。” 





























GD 参见 David Silver 等 人 的 论文 “Mastering Chess and Shogi by Self-Play with a General Reinforcement Learning Algorithm”。 
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图 11-1 强化 学 习 在 现实 世界 中 的 应 用 示例 。 左 上 角 : 玩 国际 象棋 和 围棋 这 样 的 棋 类 游戏 。 
右上 角 : 用 算法 交易 股票 。 左 下 角 : 使 数据 中 心中 资源 的 管理 自动 化 。 右 下 角 : 控 





制 和 规划 机 如 人 的 行动 。 这 些 图 片 都 下 载 自 Pexels 网 站 , 并 已 取得 免费 使 用 的 授权 


RL 这 个 迷人 的 话题 和 前 几 草 中 我 们 见 过 的 监督 式 学 习 问 题 有 几 个 本 质 上 的 区 别 。 与 监督 式 
学 习 中 学 习 输 入 和 输出 间 的 映射 天 系 不 同 ，RL 的 本 质 是 通过 与 环境 的 互动 探索 出 最 佳 的 决策 过 
程 。 在 RL 问题 中 ， 模 型 的 输入 不 是 有 标签 的 训练 集 ， 而 是 不 同 的 可 探索 的 环境 。 此 外 ， 在 RL 
问题 中 ， 时 间 是 必 不 可 少 的 基础 维度 。 但 监督 式 学 习 问 题 与 此 不 同 。 它 们 要 人 么 不 涉及 时 间 维 度 ， 
要 么 以 近似 处 理 空间 维度 的 方式 处 理 时 间 维 度 。 由 于 RL 的 这 种 特质 ， 本 和 草 的 用 词 和 思维 方式 都 
会 和 前 几 半 有 所 不 同 。 但 是 别 担 心 ， 书 中 会 用 简单 量具 体 的 示例 来 诠释 RL 的 基本 概念 和 策略 。 
此 外 , 我 们 的 老 朋 友 一 一 深度 神经 网 络 及 其 在 TensorFlow.js 中 的 实现 一 一 仍然 非常 重要 , 因 其 是 
我 们 在 本 曹 中 即将 学 习 的 RL 算法 的 重要 支柱 (尽管 不 是 唯一 的 支柱 )。 

通过 学 习 本 革 ， 你 将 熟悉 RL 问题 的 基本 定义 ， 理解 RL 领域 第 用 的 两 类 神经 网 络 ( 策略 网 
络 和 0O 网 络 ) 痛 后 的 基本 思想 ， 以 及 知道 如 何 用 TensorFlow.js 的 API 训练 这 样 的 神经 网 络 。 


11.1 定义 强化 学 习 问 题 


图 11-2 中 列 出 了 RL 问题 的 主要 组 成 部 分 。 其 中 我 们 ( 即 RL 从 业者 ) 能 够 二 接 控 制 的 部 分 
能 体 。 智 能 体 (例如 室内 的 垃圾 回收 机 各 人 ) 会 用 以 下 方式 与 环境 交互 。 




















是 知 
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口 在 每 一 步 中 ， 乔 能 体会 执行 一 个 行为 ， 这 个 行为 会 改变 环境 的 状态 。 例 如 ， 在 垃圾 回收 
机 硕 人 的 语 境 下 ， 它 可 执行 的 行为 可 能 包括 {go forward, go backward, turn left, 
turn right, grab trash, dump trash into container} ( 即 前 进 、 后 退 、 左 转 、 
右 转 、 抓 取 垃 圾 、 将 垃圾 倒 入 垃圾 桶 )。 

口 环境 不 时 地 会 给 予 智能 体 一 定 的 奖励 ， 这 些 奖励 从 人 的 角度 来 理解 ， 相 当 于 瞬间 的 刺激 
或 满足 感 。 更 抽象 地 说 ， 奖 励 〈 或 者 之 后 的 示例 中 将 展示 的 一 段 时 间 内 的 总 奖励 ) 可 以 
看 作 智能 体 要 尝试 最 大 化 的 一 个 数字 。 它 是 一 个 非常 重要 的 数值 。 就 如 同 损失 值 在 监督 
式 学 习 中 扮演 的 角色 一 样 ， 它 能 够 引导 RL 算法 的 进行 。 奖 励 可 正 可 负 。 在 垃圾 回收 机 顶 
人 这 个 示例 中 ， 如 果 机 带 人 正确 地 将 一 袋 垃圾 放 入 垃圾 箱 中 ， 那 么 就 可 给 也 它 一 个 正 问 
奖励 。 反 之 ， 如 采 机 一 人 碰 倒 了 垃圾 箱 、 撞 到 了 人 或 家 具 或 者 将 垃圾 倒 错 了 地 方 ， 就 应 
该 给 予 它 一 个 负 回 奖励 。 

口 除了 奖励 外 ， 吞 能 体 可 以 从 男 外 一 个 渠道 获得 来 日 环境 的 状态 信息 ， 那 就 是 观察 
(observation )。 观 察 可 以 指环 境 的 全 部 状态 信息 ,也 可 以 仅 指 对 智能 体 可 见 的 部 分 (这 部 
分 状态 信息 可 能 来 目 一 些 爱 限 的 ， 或 者 说 不 完美 的 渠道 )。 对 于 我 们 的 垃圾 回收 机 各 人 而 
言 ， 观 察 指 来 自 摄 像 头 的 图 像 流 ， 以 及 它 喘 上 的 其 他 传感器 传 回 的 信号。 






































区 
VA 智能 体 


图 11-2 RL 问题 基本 定义 的 示意 图 。 在 每 一 步 中 ， 智 能 体会 从 可 能 的 行为 中 选择 一 个 
执行 ， 这 会 导致 环境 状态 的 改变 。 相 应 地 ， 环 境 会 根据 自己 当前 的 状态 以 及 
智能 体 选 择 的 行为 ， 给 智能 体 一 个 奖励 。 智 能 体 可 观察 到 环境 的 全 部 或 部 分 
状态 ， 并 以 此 作为 后 续 行 为 决策 的 依据 


上 文 对 RL 问题 的 定义 有 点 抽象 。 让 我 们 通过 一 些 具体 的 示例 ， 建 立 对 RL 问题 所 涵盖 范围 
的 感性 认 知 。 在 这 个 过 程 中 ， 我 们 还 将 简要 介绍 这 些 RL 问题 是 如 何 分 类 的 。 前 和 完 ， 让 我 们 来 看 
看 行为 。 智 能 体 可 选择 的 行为 空间 既 可 以 是 离散 的 , 也 可 以 是 连续 的 。 例如， 对 于 能 玩 棋 类 游戏 
的 智能 体 ， 行 为 空间 一 般 是 离散 的 。 这 是 因为 在 这 类 问题 中 ,可 选择 的 行为 是 有 限 的 。 然 而 ,对 
于 控制 虚拟 人 形 机 融 人 用 双 脚 行走 * 这 样 的 RL 问题 而 言 ， 选 择 空间 则 是 连续 的 。 这 是 因为 机 器 
人 各 个 关 市 的 力矩 变化 是 连续 的 。 本 章 将 介绍 的 示例 中 的 行为 空间 部 是 离散 的 。 注意, 对 于 有 的 




















GD 参见 OpenAI Gym 网 站 中 的 “Humanoid environment” 问 题 。 
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RL 问题 ， 可 以 通过 离散 化 ( discretization ) 将 连续 的 行为 空间 转换 成 离散 的 。 例 如 ，DeepMind 
公司 开发 的 《星际 争 针 II》 游戏 的 智能 体会 将 高 分 辨 率 的 二 维 画 面 转 换 成 更 粗 粒 度 的 长 方形 ， 由 
此 来 决定 如 何 移 动 游 戏 中 的 单位 ， 以 及 朝 哪个 方向 开火 。™ 

奖励 ， 这 个 RL 问题 中 的 关键 要 素 ， 在 不 同 场景 下 也 有 所 不 同 。 首 先 ， 有 的 RL 问题 中 不 存 
在 负 回 奖励 。 例 如 在 即将 给 出 的 示例 中 , 智能 体 的 目标 是 平衡 移动 的 小 车 上 的 倒立 摆 。 在 这 个 示 
例 中 就 只 有 正 问 奖 励 的 概念 。 只 要 在 给 定 的 时 间 步 ( time step ) 中 ， 智 能 体能 保持 倒立 摆 处 于 立 
起 状态 ， 它 就 能 得 到 一 个 小 额 的 正 问 奖 励 。 然 而 ， 对 于 其 他 的 很 多 RL 问题 而 言 ， 奖 励 是 有 正 也 
有 负 的 。 可 以 将 负 回 奖励 看 作 一 种 “惩罚 "”。 例 如 ， 对 于 学 习 如 何 投篮 的 智能 体 而 言 ， 投 中 就 能 
得 到 正 回 奖 励 ， 未 投 中 则 会 受到 负 回 奖励 的 惩罚 。 

奖励 发 生 的 频率 是 可 变 的 。 在 一 些 RL 问题 中 ， 奖 励 的 产生 可 以 是 连续 不 断 的 。 以 平衡 倒立 
摆 问 题 为 例 ， 只 要 倒立 摆 是 立 起 的 ， 智 能 体 在 每 个 时 间 步 中 就 会 得 到 一 个 正 回 奖励 。 与 此 相反 ，， 
对 于 下 国际 象棋 的 RL 智能 体 而 言 ， 奖 励 只 有 在 游戏 胜 败 已 分 (结果 是 尺 、 输 、 平 中 的 一 种 ) 时 
才 会 确定 。 还 有 一 些 介 于 这 两 种 极端 之 间 的 RL 问题 。 例 如， 对 于 垃圾 回收 机 各 人 而 言 ， 在 两 次 
成 功 倾倒 垃圾 步 又 的 中 间 ,， 仅 从 一 个 点 移动 到 另 一 个 点 是 不 会 有 奖励 的 。 此 外 ， 玩 雅 达 利 游 戏 的 
智能 体 不 会 在 游戏 的 每 一 步 ( 对 应 每 帧 画面 ) 都 得 到 奖励 ， 而 是 每 隔 几 个 时 间 步 才 会 发 生 一 次 。 
例如 ， 只 有 当 智 能 体 挥 出 的 球拍 击 中 球 ， 然 后 使 球 改 变 轨迹 天 对 手 飞 去 时 ， 它 才 会 得 到 奖励 。 在 
本 章 将 介绍 的 几 个 示例 问题 中 ， 一 部 分 奖励 是 高 频 的 ， 男 一 部 分 是 低频 的 。 

观察 是 RL 问题 中 的 另 一 大 要 素 。 它 是 智能 体 获取 环境 状态 信息 的 窗口 ， 也 是 除了 奖励 外 ， 
做 决策 的 另 一 个 重要 依据 。 就 和 行为 一 样 ， 观 察 可 以 是 离散 的 〈 例 如 棋盘 族 戏 和 纸牌 游戏 )， 也 
可 以 是 连续 的 ( 例如 现实 环境 )。 你 可 能 会 好 奇 , 在 RL 中 为 何 要 将 观察 和 奖励 分 成 两 个 实体 来 
讨论 , 难道 不 能 将 它们 一 同 视 作 环境 给 智能 体 的 反 蚀 吗 ? 答案 是 为 了 保持 概念 的 清晰 和 人 简单 。 尽 
管 可 以 将 奖励 看 作 观 察 的 一 种 , 但 这 是 智能 体 真 正 最 关心 的 东西 。 相 较 之 下 ， 观察 可 以 包括 相关 
和 不 相关 的 信息 ， 知 能 体 需 要 学 习 如 何 过 滤 这 些 信 息 并 恰当 地 利用 它们 。 

在 有 些 RL 问题 中 ， 智 能 体能 够 从 观察 中 获得 环境 的 全 部 状态 ， 但 另 一 些 问题 中 的 智能 体 只 
能 获得 部 分 状态 。 全 部 状态 的 例子 包括 国际 象棋 和 围棋 这 样 的 棋 类 游戏 。 部 分 状态 的 例子 包括 像 
扑克 这 样 的 纸牌 游戏 (因为 无 法 看 到 对 手 的 手 牌 ) 和 股票 交易 。 股 价 由 很 多 因 系 共同 决定 ,例如 
公司 内 部 的 运营 情况 和 广大 股民 是 看 涨 还 是 看 跌 。 但是, 智能 体 仅 能 直接 看 见 这 些 信 息 中 很 少 的 
一 部 分 。 因 此 ， 智 能 体 的 观察 仅 限 于 股价 的 变化 历史 ， 以 及 像 金 融 新 闻 这 样 的 公开 信息 。 

上 文 的 这 些 讨论 已 经 为 RL 的 登场 准备 好 了 舞台 。 在 开始 前 ， 还 有 一 点 值得 特别 注意 : 智能 
体 和 环境 间 的 信息 流动 是 双 辐 的。 也 就 是 说 ， 智 能 体 可 以 在 环境 中 执行 行为 ， 而 环境 也 可 以 相应 
地 给 智能 体 提 供 奖 励 和 状态 信息 。 这 一 点 是 RL 和 监督 式 学 习 在 本 质 上 的 不 同 , 在 监督 式 学 习 中 ， 
信息 的 流动 是 单 回 的 : 输入 已 经 包含 足够 的 信息 ,算法 会 利用 这 些 信息 来 预测 输出 。 但 是 输出 对 
输入 没有 任何 关键 影响 。 

RL 问题 的 另 一 个 有 趣 的 特质 是 ， 它 们 必须 发 生 在 时 间 维 度 ， 这 样 才 可 以 将 智能 体 和 环境 间 




























































































GD 参见 Oriol Vinyals 等 人 的 文章 “StarCraft II 一 A New Challenge for Reinforcement Learning ”。 
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的 交互 划分 成 多 个 回合 ， 或 者 说 步 又 。 时 间 可 以 是 离散 的 ， 也 可 以 是 连续 的 。 例 如 ， 下 棋 的 智能 
体 运行 的 时 间 轴 是 离散 的 ， 因 为 这 类 游戏 本 里 是 回合 制 的 。 这 同样 适用 于 电子 游戏 。 然 而 ， 对 于 
控制 现实 中 的 机 械 辟 的 RL 智能 体 而 言 ， 时 间 轴 是 连续 的 ， 尽管 它 仍然 可 以 选择 只 在 离散 的 时 间 
点 上 行动 。 本 章 将 聚焦 于 离散 时 间 点 的 RL 问题 。 

对 RL 理论 的 介绍 暂时 告 一 段 钞 。 下 一 节 中 ， 我 们 会 实战 读 练 一 些 RL 问题 和 算法 。 


11.2 系 略 网 络 和 策略 榴 度 : 平衡 倒立 摆 示 例 


下 面 要 解决 的 第 一 个 RL 问题 是 ,模拟 一 辆 在 一 维 轨道 上 运行 的 小 车 ， 让 它 能 够 保持 在 其 上 
安装 的 倒立 摆 不 掉 下 来 。 这 个 问题 被 恰 如 其 分 地 称 为 平衡 倒立 摆 ( cart-pole ) 问题 。 它 由 Andrew 
Barto、Richard Sutton 和 Charles Anderson 于 1983 年 率先 提出 。* 自 此 之 后 ， 它 成 了 控制 系统 工 
程 领域 的 一 个 基准 问题 ( 某 种 程度 上 相当 于 MNIST 手写 数字 识别 问题 在 监督 式 学 习 中 的 地 位 )。 
这 是 因为 它 的 定义 很 简单 ,其 背后 的 物理 问题 和 数学 问题 的 定义 也 很 明确 , 但 解决 起 来 又 并 不 容 
易 。 在 本 节 的 示例 中 , 智能 体 的 目标 是 通过 癌 左 或 回 右 推动 小 车 , 使 其 上 方 的 倒立 摆 尽 可 能 长 时 
间 地 维持 直立 平衡 状态 。 























11.2.1 用 强化 学 习 的 框 染 定义 平衡 倒立 摆 问 题 
在 继续 深入 讨论 平衡 倒立 控 问 题 之 前 , 先 通 过 运行 平衡 倒立 摆 的 示例 程序 来 百 观 地 理解 这 个 
问题 。 平 衡 倒立 摆 问 题 非 稼 简单 且 轻 量 ， 因 此 可 以 在 浏览 锅 中 完成 从 模拟 到 训练 的 全 过 程 。 图 
11-3 直观 地 描绘 了 平衡 倒立 摆 问 题 。yarn watch 命令 会 在 浏览 带 中 以 动画 的 方式 展示 该 问题 。 
可 以 用 下 面 的 命令 下 载 并 运行 平衡 倒立 摆 问 题 的 示例 程序 。 


git clone https://github.com/tensorflow/tfjs-examples.git 














cd tfjs-examples/cart-pole 
yarn && yarn watch 


依次 单 击 “Create Model” 按 钮 和 “Train” 按 钮 。 你 会 在 页 面 下 方 看 到 一 个 动画 ， 其 中 展示 
的 是 一 个 未 经 训练 的 智能 体 ， 它 在 笠 试 执行 平衡 倒立 摆 任 务 。 因 为 智能 体 模 型 ( 稍 后 会 详解 模型 
部 分 ) 的 权重 是 随机 初始 化 的 ， 所 以 它 一 开始 的 表现 会 很 不 理想 。 在 RL 的 术语 中 ， 从 游戏 开始 
到 结束 所 经 历 的 所 有 时 间 步 统称 回合 (episode )。 在 下 文中 ,， 可 以 将 “一 轮 游 戏 ” 和 “一 个 回合 ” 
理解 为 同义词 。 











GD 参见 Andrew G. Barto、Richard S. Sutton 和 Charles W. Anderson 的 文章 “Neuronlike Adaptive Elements that Can Solve 
Difficult Learning Control Problems” ， 刊 载 于 ZIPEEBE Transactions on Systems, Man, and Cybernetics, Sept./Oct. ，1983 
年 ， 第 834~846 页 。 
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a. 平衡 倒立 摆 问 题 中 的 
行为 和 观察 


b. 游戏 结束 条 件 1: c. 游戏 结束 条 件 2: 
小 车 位 置 超出 边界 倒立 摆 倾 角 过 大 


| 


图 11-3 ”平衡 倒立 摆 问 题 的 示意 图 。(a) 组 成 环境 状态 和 观察 的 4 个 物理 量 (小 车 的 位 置 x、 小 
车 的 速度 x'、 倒 立 摆 的 倾角 0 和 倒立 摆 的 角速度 9'); 在 每 个 时 间 步 中 ， 智 能 体 可 以 
选择 对 小 车 施加 一 个 回 左 的 力 〈forcer ) 或 一 个 同 右 的 力 ( forcer )， 环 境 的 状态 也 会 
随 之 改变 。(b)(c) 有 两 种 情况 会 导致 游戏 结束 ， 要 么 是 小 车 同 左 或 回 右 移动 过 多 超出 
了 边界 (图 11-3b )， 要 么 是 倒立 摆 的 倾角 过 大 (图 11-3c ) 


如 图 11-3a 所 示 , x 代表 在 每 个 时 间 步 上 ，, 小 车 在 轨道 上 的 位 置 。 x 表示 它 的 瞬时 速度 。 此外， 
90 表示 倒立 摆 的 倾角 ，0' 表 示 倒 立 捍 的 角速度 ( 即 9 的 变化 快慢 和 方向 )。 这 4 个 物理 量 (x、x"、 
9 和 0') 一 同 组 成 了 这 个 RL 问题 的 观察 部 分 ， 并 且 它 们 对 智能 体 是 完全 可 见 的 。 

当 以 下 两 个 条 件 之 一 达成 时 ， 仿 真实 验 就 结束 了 。 

Dzx 的 值 超出 预先 设 定 的 边界 。 在 现实 中 , 这 对 应 的 是 小 车 撞 到 轨道 两 边 的 增 的 场景 ( 见 图 

11-3b )。 

口 9 的 绝对 值 超出 一 定 阐 值 , 在 现实 中 , 这 对 应 的 是 倒立 摆 的 倾角 过 大 的 场景 ( 见 图 11-3c )。 

如 采 仿 真实 验 的 运行 超出 了 500 个 时 间 步 , 仿真 实验 也 会 终止 运行 。 这 可 以 避 倪 一 个 回合 持 
续 过 长 〈 如 果 智 能 体 通 过 学 习 ， 变 得 过 于 擅长 平 衔 倒 立 摆 ， 就 会 出 现 这 种 现象 )。 可 以 通过 UI 
调整 一 个 回合 的 最 大 时 间 步 的 上 界 。 在 游戏 结束 前 , 仿真 实验 每 持续 一 个 时 间 步 , 智能 体 就 能 获 
得 一 个 单位 ( 值 为 1 ) 的 奖励 。 因 此 ， 为 了 获得 更 高 的 累计 奖励 ， 智 能 体 需 要 找到 一 种 能 使 倒立 
摆 保 持 直 立 姿态 的 方式 。 但 智能 体 是 如 何 控制 平 衔 倒立 摆 系 统 的 呢 ? 这 就 需要 介绍 这 个 问题 的 行 
为 部 分 了 。 

如 图 11-3a 里 代表 施 力 方向 的 箭头 所 示 ， 在 每 个 时 间 步 中 ， 智 能 体 仅 有 两 种 可 能 的 行为 : 对 
小 车 施加 一 个 回 左 的 力 ,， 或 施加 一 个 同 右 的 力 。 智 能 体 必 须 从 两 种 可 能 的 施 力 方 稀 里 选 一 个 。 力 
的 大 小 是 固定 的 。 一 旦 决定 了 施 力 方向 , 仿真 程序 会 利用 一 系列 数学 公式 计算 出 环境 的 下 一 个 状 
态 ( 从 而 得 到 一 组 新 的 x、x' 9 和 0 和 值 )。 具 体 的 计算 公式 和 你 可 能 已 经 很 熟悉 的 牛顿 力学 定律 
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有 关 。 由 于 理解 它们 对 于 学 习 RL 问题 而 言 不 是 必 知 的 ， 故 而 就 不 在 此 蓉 述 了 。 如 有 果 你 感 兴 趣 的 
话 ， 可 以 在 cart-pole 文件 夹 下 的 cart-pole/cart_pole.js 文件 中 找到 它们 。 

类 似 地 , 负责 在 HTML 的 canvas 元 率 中 生成 平衡 倒立 摆动 画 的 代码 也 可 以 在 cart-pole/ui.js 
文件 中 找到 。 这 部 分 代码 彩 显 了 用 JavaScript ( 更 具体 地 说 ,用 TensorFlow.js ) 编写 RL 算法 的 一 
个 独特 优势 : UI 和 学 习 算 法 可 以 使 用 相同 的 语言 编写 ， 并 且 可 以 相互 深度 集成 。 这 既 能 帮助 我 
们 以 直观 的 方式 理解 当前 的 问题 ， 又 能 加 速 开发 过 程 。 可 以 用 RL 的 思维 框 染 和 术语 来 总 结 平衡 
倒立 摆 问 题 〈 见 表 11-1 )。 














表 11-1 用 标准 的 RL 术语 描述 倒立 平衡 摆 问 题 








抽象 的 RL 概念 在 倒立 平衡 摆 问 题 中 所 对 应 的 具体 实现 
环境 小 车 载 着 倒立 摆 在 一 维 轨道 上 移动 
行为 在 每 个 时 间 步 中 ， 对 癌 左 施 力 还 是 回 右 施 力 做 出 的 〈 离 散 的 ) 二 元 选择 。 力 的 大 小 是 固定 的 
奖励 在 一 个 回合 的 每 个 时 间 步 中 ， 智 能 体会 得 到 一 个 固定 的 奖励 (1 )。 该 奖励 发 生 的 频率 很 高 ， 并 
且 全 部 为 正 。 一旦 小 车 撞 到 了 轨道 一 端的 墙 ， 或 者 倒立 摆 的 倾角 过 大 ,该 回合 就 结束 了 
观察 在 每 个 时 间 步 中 ， 智能 体 可 以 获取 平衡 倒立 摆 系 统 的 全 部 状态 。 这 些 状 态 包括 小 车 的 位 置 (x ) 


和 速度 (x')， 以 及 倒立 摆 的 倾角 (90) 和 角速度 (0')， 并 且 是 连续 的 


11.2.2” 委 略 网 络 


平衡 倒立 摆 问 题 的 RL 定义 已 经 非常 清晰 ， 现 在 应 该 看 看 如 何 解 决 它 了 。 传统 上 ， 可 以 直接 
信 助 控制 领域 的 理论 专家 已 经 提出 的 巧妙 方法 来 解决 这 个 问题 。 他 们 的 方法 主要 基于 对 该 系统 物 
理 特性 的 分 析 。 "但 这 并 不 是 本 书 将 采取 的 策略 ， 因 为 这 种 方法 和 本 书 中 倡导 的 思想 相悖 。 这 相 
当 于 用 经 验 法 则 编写 算法 并 处 理 MNIST 图 像 中 的 边 角 特 征 ， 以 达到 分 类 数字 的 目的 。 与 此 不 同 
的 是 ， 本 书 会 完全 忽略 系统 的 物理 法 则 ,让 智能 体 通 过 不 断 试 错 来 学 习 系 统 中 的 模式 。 这 样 ， 这 
部 分 内 容 束 和 本 书 其 他 部 分 所 秉承 的 思维 方式 一 人 致 了 :不 应 该 便 编 码 菏 个 算法 或 基于 人 类 的 知识 
来 人 工 制造 特征 ; 正确 的 做 法 是 设计 一 个 算法 ， 让 模型 日 主 地 学 习 。 

如 何 让 智能 体 决 定 每 个 时 间 步 应 该 执行 的 行为 ( 即 回 左 施 力 还 是 向 右 施 力 ) 呢 ? 如 采 将 智能 
体 在 每 个 时 间 步 中 获得 的 观察 和 做 出 的 决定 作为 输入 , 那么 可 以 将 这 个 问题 改造 成 一 个 寻找 输入 
到 输出 的 映射 的 问题 , 就 和 之 前 见 过 的 监督 式 学 习 问 题 一 样 。 一 个 上 自然 的 解决 方案 是 构建 一 个 神 
经 网 络 ， 让 它 根 据 观 察 得 出 应 执行 的 行为 。 这 正 是 策略 网 络 (policy network ) 背后 的 基本 思想 。 

该 神经 网 络 的 输入 是 一 个 长 度 为 4 的 观察 器 量 (x、x^、 0 和 4')， 输 出 是 一 个 数值 ， 用 于 决 
定 是 癌 左 还 是 向 右 施 力 。 它 的 架构 和 第 3 草 中 为 钓鱼 检测 网 站 构建 的 二 分 类 融 类 似 。 抽 和 象 地 说 ， 
在 每 个 时 间 步 中 , 模型 会 观察 环境 的 状态 ， 然 后 决定 应 该 执行 什么 行为 。 通 过 收集 模型 在 各 个 回 
合 中 的 表现 , 我 们 可 以 获得 一 定量 的 数据 来 评估 模型 决 岳 的 有 效 性 。 之 后 可 以 拟定 一 种 方式 来 为 





















































中 如 果 你 对 本 问题 的 传统 、 非 RL 解决 方案 感 兴趣 ,并且 不 怕 这 背后 复杂 的 数学 理论 , 可 以 阅读 MIT OpenCourseWare 
网 站 上 由 Russ Tedrake 编写 的 MIT 控制 论 公开 课 ( 6.832 Underactuated Robotics, Spring 2009 ) 的 教案 。 
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这 些 决策 打分 ， 并 相应 地 调整 模型 的 权重 ， 从 而 使 模型 未 来 的 决策 更 接近 之 前 的 “有 效 ” 决 傈 ， 
而 不 是 “无 效 ” 决 宋 。 
除了 上 述 的 相似 性 外 , 在 细节 层面 上 ， 该 系统 和 之 前 的 分 类 融 相 比 ,在 以 下 几 个 方面 还 有 所 





口 在 同一 个 回合 中 ， 模 型 会 被 使 用 多 次 ( 每 个 时 间 步 中 都 会 用 到 )。 

口 模型 的 输出 ( 见 图 11-4 中 素 略 网 络 部 分 的 输出 ) 是 对 数 仁 ， 而 不 是 概率 信 。 这 些 对 数值 
随后 会 通过 sigmoid 函数 转换 成 概率 信 。 之 所 以 不 直接 在 策略 网 络 的 最 后 一 层 ( 输 出 层 ) 
使 用 sigmoid 这 个 非 线性 也 数 是 因为 训练 使 用 的 是 对 数值 。 稍 后 的 内 容 中 会 讲解 这 一 点 。 

口 必须 将 sigmoid 函数 的 概率 输出 转换 成 具体 的 行为 ( 即 疝 左 施 力 还 是 癌 右 施 力 )。 这 是 通 
过 调用 随机 采样 函数 tf .multinomial () 做 到 的 。 在 第 10 章 的 基于 LSTM 的 文本 生成 
( lstm-text-generation ) 示例 中 曾 使 用 过 tf.multinomial() 国 数 ， 当 时 的 场景 是 根据 字 














母 表 中 字母 的 归 一 化 指数 概率 值 进 行 采 样 ， 从 而 生成 文本 的 下 个 字符 。 本 示例 的 场景 相 
对 简单 ， 因 其 仅 涉 及 两 个 可 能 的 行为 。 


一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 






[null, 4] 
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图 11-4 案 略 网 络 在 平衡 倒立 探 问题 中 扮演 的 角色 。 策略 网 络 是 个 TensorFlowjs 模型 ， 
它 根 据 观察 向量 (x、x^ 9 和 0') 这 一 输入 , 输出 回 左 施 力 这 一 行为 的 概率 值 。 
随机 采样 会 将 概率 值 转换 为 实际 的 行为 


最 后 一 点 还 有 些 更 深层 的 含义 。 事实 上 , 我 们 还 可 以 直接 通过 一 个 国 什 , 将 tf.sigmoig 7() 
函数 的 输出 转换 成 对 应 的 行为 。 例 如 ， 将 大 于 0.5 的 模型 输出 映射 成 向 左 施 力 的 行为 ， 将 小 于 等 
于 0.5 的 输出 映射 成 回 右 施 力 这 一 行为 .那么 ,我们 为 何 俩 好 更 为 复杂 的 ,及 用 Etf.multinomial () 
的 随机 采样 策略 ， 而 不 是 上 述 的 简单 策略 呢 ? 答案 就 是 我 们 想到 利用 zf.mulcinonial0 和 党“ 世 和 
的 随机 性 。 在 训练 的 早期 阶段 ， 梨 略 网 络 完全 不 知道 如 何 选 择 该 执行 的 行为 ， 因 为 权重 都 是 随机 
初始 化 的 。 随 机 采样 可 以 玛 励 模型 随机 答 试 不 同 的 行为 ， 然 后 看 其 中 哪 种 最 有 效 。 这 些 随机 符 试 
中 的 一 部 分 可 能 效 来 欠 佳 , 但 为 一 部 分 可 能 结果 非常 好 。 我 们 的 算法 会 记 住 那些 好 选择 ,并 在 未 
来 的 决策 中 尽 可 能 癌 这 些 决 策 徘 扰 。 这 样 的 好 选择 只 有 通过 给 智能 体 足 够 的 自由 去 尝试 才能 得 
到 。 如 末 我 们 采取 的 是 结 采 确定 的 、 用 国信 判断 行为 的 方法 ,那么 模型 很 可 能 只 会 不 断 地 做 最 初 
做 过 的 选择 。 
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说 到 这 里 ， 就 不 得 不 谈 谈 RL 领域 中 一 个 经 典 有 旦 重要 的 话题 ， 即 权衡 探索 ( exploration ) 和 
利用 ( exploitation )。 探 索 指 随机 的 尝试 ， 也 是 智能 体 发 现 好 的 行为 决策 的 前 提 条 件 。 利 用 指 
做 出 智能 体 已 知 的 最 优 决 策 , 从 而 最 大 化 奖励 。 这 两 者 是 不 可 兼 得 的 , 因此 找到 它们 之 间 的 平衡 
对 于 设计 有 效 的 RL 算法 而 言 是 至 关 重 要 的 。 在 训练 的 初期 ， 我 们 会 而 望 在 较 大 的 范围 内 探索 可 
能 的 策略 ， 不 过 一 旦 找到 了 一 些 较 好 的 策略 ， 承 应 该 缩小 范围 ， 基 于 这 些 较 好 的 策略 进行 微调 。 
因此 ， 在 很 多 算法 中 ， 探 索 的 力度 一 般 会 随 着 训练 的 深 入 逐渐 缩小 。 在 平衡 倒立 摆 问 题 中 ， 
tf.multinomial() 这 个 采样 函数 已 经 洪 在 包含 了 探索 的 要 素 。 这 是 因为 随 着 训练 的 深入 , 模型 
对 雇 策 的 信心 指数 会 逐 新 上 升 ，tf.multinomial() 输 出 的 结果 也 会 变 得 越 来 越 确 定 。 

代码 清单 11-1 (摘自 cart-pole/index.js 文件 ) 展示 了 如 何 用 TensorFlow.js 创建 策略 网 络 。 代 
人 码 清 单 11-2 中 的 代码 〈 同样 摘自 cart-pole/index.js 文件 ) 负责 将 策略 网 络 的 输出 转换 成 智能 体 的 
行为 , 并 返回 用 于 训练 的 对 数值 。 此 处 的 模型 创建 代码 和 前 几 章 见 过 的 监督 式 学 习 模 型 的 代码 并 
没有 太 大 区 别 。 

然而 ， 本 示例 和 之 前 的 示例 有 一 个 根本 区 别 : 没有 可 用 于 训练 模型 做 出 正确 决定 的 有 标签 
数据 集 。 如 果 有 这 样 的 数据 集 ， 那 就 和 前 几 章 的 示例 一 样 ， 只 需要 调用 策略 网 络 的 fit () 或 
fitDataset () 方 法 就 足以 解决 这 个 问题 了 。 但 现实 是 ,我们 并 没有 这 样 的 数据 集 ， 因 此 吞 
能 体 必须 在 不 断 的 尝试 中 ， 通 过 观察 每 次 尝试 市 来 的 奖励 ， 来 判断 该 执行 的 行为 是 什么 。 换 言 
之 ， 它 必须 “在 做 中 学 ”。 这 是 RL 问题 的 一 个 关键 特征 。 接 下 来 看 看 RL 模型 具体 是 如 何 做 到 
这 点 的 。 


代码 清单 11-1 策略 网 络 的 MLP 模型 : 根据 观察 选择 行为 


createModel (hiddenLayerSizes) { hiddenLayerSize 会 决定 策略 网 
1If (!Array.isArray (hiddenLayerSizes)) { 络 中 ， 除 了 最 后 一 层 (输出 层 ) 外 












































hiddenLayerSizes = [hiddenLayerSizes]; 所 有 层 的 尺寸 
云 NA 、 
this.model = tf.segquential (); 
hiddenLayerSizes.forEach( (hiddenLayerSize, i) => { 


this.model.add (tf.layers.densel(t 
units: hiddenLayerSize, 
activation: 'elu', 加 只 有 第 一 层 需要 配置 
inputShape: i === 0 ? [4] undefined inputShape 
a 
}); 


this.model.add (tf.layers.dense({units: 1})); 最 后 一 层 硬 编码 为 一 个 单元 。 
单个 输出 数 将 被 转换 为 选择 


向 左 施 力 的 概率 值 


代码 清单 11-2 ”从 策略 网 络 的 输出 获得 对 数值 和 行 》 
getLogitsAndActions (inputs) { 
return tf.tidy(() => { 


const logits = this.policyNet .predict (inputs); 将 对 数值 转换 成 向 左 推 
动 小 车 的 概率 值 


const leftProb = tf.sigmoid(logits).; 
const leftRightProbs = tf.concatl\( 
[leftProb, tf.sub(1, leftProb)], 1); A 7 2 
计算 两 种 行为 的 概率 值 。 它们 将 作为 
tf .multinomial () 的 输入 
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const actions = tf.multinomiall 


i me 基于 概率 值 ， 随 机 采样 行为 。4 个 参数 

分 别 是 概率 值 、 样 本 数 、 随 机 种 子 〈 此 

本 处 没有 用 到 ) 和 指明 概率 值 是 否 经 过 标 
准 化 的 布尔 值 





11.2.3 ”训练 策略 网 络 : REINFORCE 算法 


现在 的 关键 问题 是 如 何 量化 行为 的 好 坏 。 如 果 能 回答 这 个 问题 , 就 可 以 用 和 监督 式 学 习 中 类 
似 的 方式 ,更 新 策略 网 络 的 权重 ， 让 它 在 未 来 更 可 能 做 出 正确 的 决策 。 不 过 , 平衡 倒立 摆 问 题 中 
的 奖励 有 两 个 特点 : 第 一 ， 它们 的 大 小 是 固定 的 ; 第 二 ， 只 要 回合 还 没 结束 ， 每 个 时 间 步 都 会 得 
到 奖励 。 因 此 , 不 能 徐 单 地 将 每 一 步 的 奖励 作为 衔 量 决策 好 坏 的 指标 ， 因 为 这 么 做 会 导致 所 有 行 
为 都 被 认定 为 一 样 好 。 我 们 还 需要 考虑 每 个 回合 持续 的 时 间 。 

一 个 简单 的 策略 是 百 接 对 回合 中 的 所 有 奖励 求 和 , 这 样 做 的 结 采 实际 等 于 回合 的 长 度 。 但 这 
个 总 和 真 的 适合 衡量 行为 的 好 坏 吗 ? 稍 加 思考 后 , 不 难 发 现 这 么 做 是 行 不 通 的 。 问 题 出 在 如 何 处 
理 在 回合 尾声 的 时 间 步 中 获得 的 奖励 上 。 例 如 , 假设 回合 持续 了 很 入 , 智能 体 直到 最 后 几 个 时 间 
步 之 前 都 能 很 好 地 保持 倒立 摆 的 平衡 , 但 在 最 后 几 个 时 间 步 中 做 出 了 一 些 错 误 的 决定 , 导致 回合 
结束 。 如 果 采 取 和 下 接 对 所 有 奖励 求 和 的 方法 ， 就 无 法 公正 地 评估 初期 的 好 决策 和 后 期 的 坏 决策 ， 
因为 它们 对 总 奖励 的 贡献 是 一 样 的 。 因 此 , 我 们 应 该 为 回合 初期 和 中 期 的 行为 分 配 高 奖励 但 ,为 
回合 末期 的 行为 分 配 低 奖励 值 。 

现在 要 介绍 的 是 折扣 化 奖励 (reward discounting )， 这 个 虽然 简单 但 在 RL 领域 具有 重要 地 位 
的 概念 。 它 指 当 前 时 间 步 的 奖励 值 应 该 等 于 马上 可 得 到 的 奖励 , 加 上 未 来 预期 会 得 到 的 奖励 。 未 
来 的 奖励 可 能 比 马上 可 得 到 的 奖励 重要 , 也 可 能 没 马上 可 得 到 的 奖励 重要 。 这 两 种 奖励 之 间 的 平 
衡 可 以 通过 一 个 用 Y (希腊 字母 “人 徊 马 ”) 表示 的 折扣 因子 ( discounting factor ) 量化 。y 的 值 一 般 
接近 但 小 于 1， 比 如 0.95 或 0.99。 这 种 关系 可 以 用 下 面 的 公式 (11.1) 表 示 。 

Wy (11.1) 

在 公式 (11.1) 中 ,vw 是 时 间 步 i 的 总 折扣 化 奖励 ， 可 以 将 其 理解 为 该 时 间 步 状态 的 值 。 这 个 值 
等 于 该 时 间 步 中 给 予 乔 能 体 的 瞬时 奖励 (rx;), 加 上 下 个 时 间 步 的 奖励 用 yy 折扣 化 后 的 结果 (xi )， 
再 加 上 下 下 个 时 间 步 打折 后 的 奖励 ， 以 此 类 推 ， 下 到 回合 的 所 有 时 间 步 ( 最 后 一 个 为 时 间 步 N) 
都 被 覆盖 到 。 

为 了 更 好 地 阐释 折扣 化 奖励 的 概念 ， 图 11-5 中 展示 了 上 述 公 式 如 何 将 原始 奖励 转换 成 更 有 
用 的 数值 指标 。 图 11-5a 的 上 图 展示 了 一 个 很 短 的 回合 中 4 个 时 间 步 的 原始 奖励 ， 下 图 展示 了 折 
扣 化 后 的 奖励 ( 基于 公式 (11.1) )。 作 为 比较 ,图 11-5b 展示 了 一 个 较 长 的 回合 (长 度 为 20 ) 的 原 
始 奖励 和 折扣 化 后 的 奖励 。 从 中 可 以 看 出 ,折扣 化 后 的 总 奖励 值 起 初 很 高 , 末期 则 较 低 。 这 是 合 
理 的 ， 因 为 我 们 应 该 为 回合 尾声 的 行为 分 配 更 小 的 奖励 值 ， 毕 葛 正 是 这 些 行为 导致 回合 的 结束 。 
此 外 ， 较 长 回合 〈 见 图 11-5b ) 的 初 斯 和 中 期 部 分 的 值 要 高 于 较 短 回合 ( 见 图 11-5a ) 初期 的 值 。 
这 也 是 符合 预期 的 ， 因 为 我 们 应 该 为 导致 较 长 回合 的 行为 赋予 更 高 的 奖励 值 。 
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a. 回合 数 =4 b. 回合 数 =20 
原 奖励 原 奖励 
1.0 1.0 
0.8 0.8 
EN DEN 
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Rh 4 于 04 
< 琵 一 
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写 2.5 丘 2.5 
0.0 0.0 
0 1 人 2 3 012345678 9 10111213141516171819 
时 间 步 时 间 步 


图 11-5 (a) 对 长 4 个 时 间 步 的 回合 进行 奖励 折扣 化 ( 基于 公式 (11.1) )。(b) 和 图 11-5a 类 似 ， 
但 该 回合 由 20 个 时 间 步 组 成 (是 图 11-5a 的 $ 倍 长 )。 由 于 折扣 化 了 奖励 ， 回 合 初 期 
的 奖励 值 要 比 回合 末期 的 奖励 值 高 


采用 这 种 折扣 化 奖励 公式 算出 的 奖励 值 要 比 之 前 简单 的 求 和 要 更 为 合理 。 但 还 有 一 个 悬 而 未 
决 的 问题 ， 如 何 用 这 些 折扣 后 的 奖励 值 训练 策略 网 络 。 为 此 ,我 们 要 使 用 一 个 名 为 REINFORCE 
的 算法 。 该 算法 由 Ronald Williams 于 1992 年 提出 。"REINFORCE 算法 背后 的 基本 概念 是 ， 通 过 
调整 策略 网 络 的 权重 ， 使 其 更 倾向 于 做 出 好 决策 〈 分 配 较 高 折扣 化 奖励 的 决策 )， 而 不 是 坏 决 策 
(分 配 较 低 折扣 化 奖励 的 决策 )。 

为 了 实现 这 一 点 , 需要 计算 出 天 什么 方 癌 修改 策略 网 络 的 权重 参数 , 才能 使 模型 基于 给 定 的 
观察 信息 做 出 更 好 的 决策 。 这 正 是 代码 清单 11-3( 摘自 cart-pole/index.js 文件 ) 所 做 的 。 游 戏 的 
每 个 时 间 步 都 会 调用 getGradientsAndSaveActions() 也 数 。 该 函数 会 比较 对 数值 ( 即 非 标 
准 化 的 概率 值 ) 和 该 时 间 步 实际 选择 的 行为 ,然后 返回 两 者 之 间 的 差距 关于 策略 网 络 权重 的 梯度 。 
这 听 起 来 可 能 很 复杂 , 但 它 的 概念 其 实 相 当 人 简单 。 返回 的 梯度 值 会 告诉 策略 网 络 应 该 如 何 改 变 权 
重 , 才能 让 以 后 做 出 的 决策 更 接近 实际 做 出 的 决策 。 这 些 梯度 值 和 从 训练 回合 中 得 到 的 奖励 共同 
组 成 了 RE 方法 的 基础 。 这 就 是 为 何 这 个 方法 会 被 划 入 RL 领域 里 叫 作 策略 梯度 ( policy gradient ) 
的 子 领域 中 。 


代码 清单 11-3 ”通过 比较 对 数值 和 实际 选择 的 行为 ， 计 算 基 于 宁 略 网 络 权重 的 梯度 


getGradientsAndSaveActions (inputTensor) f{ 





























as 是 getLogitsAndActios() 的 
Sornest [Josts, Soreons) = 定义 位 于 代码 清单 11-2 中 
this.getLogitsAndActions (inputTensor); 
this.currentActions_ = actions.dataSync (); 
const labels = 
tf.sub(1, tf.tensor2d(this.currentActions , actions.shape));} 


中 参见 Ronald J. Williams 的 文章 “Simple Statistical Gradient-Following Algorithms for Connectionist Reinforcement 
Learning”， 刊 载 于 Machine Learning，1992 年 第 8 卷 ,， 第 229~256 页 。 
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Ey 选择 的 行为 与 策略 网 络 输出 的 对 数值 的 差距 


return tf.variableGrads (f); 
} 计算 损失 关于 策略 
网 络 权重 的 梯度 


在 训练 过 程 中 ,我 们 会 让 智能 体 玩 一 定 回合 的 游戏 ( 比如 NN 个 回合 ), 然 后 保存 所 有 由 公式 (11.1) 
算出 的 折扣 化 奖励 ， 以 及 所 有 时 间 步 的 梯度 。 随 后 ， 通 过 将 梯度 和 标准 化 后 的 折扣 化 奖励 相 乘 ， 
将 梯度 和 折扣 化 奖励 结合 起 来 。 标 准 化 奖励 是 个 重要 的 步 又， 它 会 线性 地 平移 并 缩放 NN 个 回合 中 
得 到 的 所 有 折扣 化 奖励 。 从 而 使 它们 的 均值 为 0， 标 准 差 为 1。 图 11-6 中 展示 了 标准 化 折扣 化 奖 
励 的 过 程 ， 其 中 展示 了 两 个 回合 的 标准 化 的 折扣 化 奖励 : 一 个 是 长 为 4 个 时 间 步 的 短 回合 ， 男 一 
个 是 长 为 20 个 时 间 步 的 长 回合 。 从 图 中 可 以 清楚 地 看 出 REINFORCE 算法 的 偏好 : 它 更 喜欢 长 回 
合 中 早期 和 中 期 时 间 步 中 的 行为 。 与 此 不 同 的 是 ， 短 回合 〈 即 长 度 为 4 的 回合 ) 中 所 有 时 间 步 的 
奖励 值 都 为 负 。 标 准 化 后 的 负 回 奖励 值 意味 着 什么 ?” 这 意味 着 在 之 后 用 它 来 更 新 策略 网 络 的 权重 
时 ， 它 会 引导 网 络 ， 使 其 在 得 到 类 似 的 状态 输入 时 ， 尽 量 避 免 做 和 之 前 类 似 的 决策 。 这 一 点 和 值 
为 正 的 标准 化 奖励 是 相反 的 。 后 者 会 鼓励 策略 网 络 在 未 来 遇 到 类 似 输入 时 做 出 类 似 的 决策 。 


return tf.losses.sigmoidCrossEntropy ( 
labels, logits).asscalar(); 采用 sigmoia 交叉 迷 损 失 函 数量 化 回合 中 实际 
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图 11-6 标准 化 两 个 回合 (图 11-6a 中 长 度 为 4 的 回合 和 图 11-6b 中 长 度 为 20 的 回合 ) 
对 应 的 折扣 化 奖励 。 从 图 中 可 以 看 出 ， 标 准 化 、 折 扣 化 的 奖励 最 高 值 出 现在 
长 度 为 20 的 回合 的 早期 。 策 略 梯度 方法 会 用 这 些 折 扣 化 的 奖励 值 更 新 策略 网 5 
络 的 权重 。 权 重 更 新 完成 后 ， 策 略 网 络 的 决策 会 倾向 于 避免 做 出 和 短 回 合 中 
类 似 的 决策 ， 而 是 向 长 回合 早期 的 决策 靠拢 ( 对 于 同样 的 状态 输入 而 言 ) 


用 于 标准 化 折扣 化 奖励 和 缩放 梯度 的 代码 有 点 烦 开 , 但 并 不 复杂 。 这 部 分 代码 位 于 cart-pole/ 
index.js 文件 的 scaleAndAverageGradients() 拯 数 中 。 为 了 市 省 篇 幅 ， 此 处 没有 一 一 列 出 。 
缩放 后 的 梯度 会 被 用 于 更 新 策略 网 络 的 权重 。 权 重 更 新 完成 后 ， 对 于 分 配 了 较 高 折扣 化 奖励 的 时 
间 步 ， 宋 上 略 网 络 会 输出 较 高 的 对 数值 。 反 之 ， 则 会 输出 较 低 的 对 数值 。 
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这 就 是 REINFORCE 算法 的 基本 思想 。 可 以 在 代码 清单 11-4 中 找到 平衡 倒立 摆 问 题 的 训练 
流程 的 核心 逻辑 。 它 正 是 基于 REINFORCE 算法 实现 的 。 下 面 是 对 上 文 所 描述 的 算法 的 回顾 。 

(1) 用 当前 智能 体 的 观察 作为 策略 网 络 的 输入 ， 获 得 行为 的 对 数值 。 

(2) 基于 对 数值 ， 随 机 采样 一 个 行为 。 

(3) 用 采样 得 到 的 行为 更 新 环境 。 

(4) 记录 下 列 信息 ， 以 便 之 后 更 新 权重 时 使 用 (第 (7) 步 ): 行为 的 对 数值 、 选 中 执行 的 行为 ， 
以 及 损失 亲 数 关于 策略 网 络 权 重 的 梯度 。 这 些 梯度 叫 作 策略 梯度 ( policy gradient )。 

(5) 从 环境 获得 一 个 奖励 并 将 其 记录 下 来 〈 第 (7) 步 会 用 到 )。 

(6) 在 numGames 个 回合 中 ， 重 复 第 (1) ~ (5) 步 。 

(7) 经 过 numGames 个 回合 后 ， 折 扣 化 并 标准 化 奖励 ， 然 后 用 由 此 得 到 的 结果 织 放 第 (4) 步 中 得 
到 的 梯度 。 用 缩放 后 的 梯度 更 新 策略 网 络 的 权重 。( 再 次 强调 , 正 是 这 一 步 更 新 了 策略 网 络 的 权重 。) 

(8) 重复 第 (1) ~ (7) 步 numIterations 次 。( 代码 清 单 11-4 不 包括 这 一 步 。) 

可 以 将 上 述 步骤 与 代码 清单 11-4 中 的 代码 进行 比较 ， 确 保 你 理解 它们 的 对 应 关系 ， 并 懂得 


育 后 的 思想 。 


代码 清单 11-4 用 了 REINFORCE 算法 实现 平衡 倒立 摆 问 题 的 训练 循环 


async trainl 
cartPoleSystem, optimizer, discountRate, numGames, maxStepsPerGame) { 























const allGradients = []; 
const allRewards = [|]; 
const gameSteps = []; 根据 指定 的 回合 数 ，, 重复 
onGameEnd (0, numGames); 执行 下 面 的 流程 
++1) f{ 


for (let i = 0; i < numGames:; 


cartPoleSystem.setRandomState().; 、 
| 随机 初始 化 


const gameRewards = []; 
. 一 个 回合 
const gameGradients = []; 


for (let ] = 0; Jj < maxStepsPerGame; ++]) { 
， 2 const gradients = tf.tidy(() => { 
饥 历 回合 的 const inputTensor = cartPoleSystem.getStateTensor().; 
时 间 步 return this.getGradientsAndSaveActions ( 


inputTensor) .grads; 、 、 、 . 
记录 每 个 时 间 步 的 梯度 , 以 便 之 
后 用 REINFORCE 算法 进行 训 

this.pushGradients (gameGradients, gradients).; 练 时 使 用 

const action = this.currentActions [0]; 


const isDone = cartPoleSystem.update(action); 
智能 体 在 环境 中 
m); 


await maybeRenderDuringTraining (cartPoleSyste 执行 一 个 行为 


小 小 


if (isDone) { 
gameRewards .push (0); 


breaks 只 要 游戏 还 没 结 束 , 智能 体 每 个 时 间 
) 交 LES 1 步 都 会 得 到 1 个 单位 的 奖励 
gameRewards .push (1); 


) 


onGameEnd(i + 1, numGames).: 
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gameSteps.push (gameRewards. length).; 
this.pushGradients (allGradients, gameGradients),; 
allRewards .push (gameRewards); 

await tf.nextFrame().; 


} 折扣 化 并 标准 化 奖励 (这 是 
REINFORCE 算法 的 一 个 
tt tidy(ly sy 关键 步骤 ) 





const normalizedRewards = ”| 
discountAndNormalizeRewards (allRewards, discountRate); 
optimizer.applyGradients\ 
scaleAndAverageGradients(allGradients, normalizedRewards)); 
Le 


tf.dispose(allGradients); 
入 八 
return gamesSteps; 用 各 个 时 间 步 中 得 到 的 缩放 后 的 


| 梯度 ， 更 新 策略 网 络 的 权重 


可 以 通过 平衡 倒立 摆 示 例 程序 来 体验 REINFORCE 算法 是 如 何 运行 的 。 在 对 应 的 示例 页 面 
中 ， 将 训练 轮 次 设 为 25， 然 后 单 击 “Train” 按 钮 。 默 认 情 况 下 ， 在 训练 中 ， 屏幕 上 会 实时 显示 
出 环境 的 状态 ， 你 可 以 由 此 观察 智能 体 如 何在 不 断 试 错 中 学 习 。 如 果 要 加 速 训练 ， 取 消 选 择 
“Render During Training”。25 个 轮 次 的 训练 在 较 新 的 笔记 本 计算 机 上 只 需 儿 分 钟 时 间 ， 并 且 已 经 
足以 达到 医 峰 性 能 ( 在 默认 设置 下 ， 每 个 回合 最 长 可 持续 A he ee 
的 训练 曲线 ， 其 中 展示 了 平均 回合 长 度 与 训练 迭代 数 的 函数 关系 。 宇 总 ， 在 训练 过 程 中 ， 迭代 间 
的 平均 时 间 步 数 变化 并 不 是 单调 上 升 或 单调 下 降 的 ， ie 这 类 波动 在 RL 训 
练 任务 中 并 不 罕见 











500 序列 
O 序列 1 


每 回合 的 平均 时 间 步 数 
S 包 
S S S 


一 人 
OO 
OO 


0 5 10 15 20 25 
训练 迄 代 
图 11-7 智能 体 各 个 回合 的 平均 存活 步 数 和 训练 迭代 数 的 关系 曲线 。 经 过 20 个 迭代 后 ， 
模型 就 达到 了 最 高 水 平 ( 每 个 回合 坚持 500 步 ), 这 个 结果 是 通过 一 个 尺寸 为 128 
的 隐藏 层 达 到 的 。 曲 线 的 变化 不 是 单调 的 ， 并 且 存 在 剧烈 的 波动 。 这 种 现象 在 
RL 问题 中 并 不 罕见 
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训练 完成 后 ， 单 击 “Test” 按 钮 ， 会 看 到 智能 体 确实 能 够 很 好 地 保持 倒立 摆 的 平衡 ， 并 坚持 
多 个 时 间 步 。 因 为 测试 阶段 没有 最 大 时 间 步 数 的 限制 ( 默认 为 500 )， 所 以 单 回合 可 能 会 持续 超 
过 1000 步 。 如 果 某 个 回合 持续 过 久 ， 可 以 单 击 “Stop” 按 钮 终止 仿真 程序 。 

作为 对 本 节 的 总 结 ， 图 11-8 中 复述 了 平衡 倒立 摆 问 题 的 基本 结构 ， 以 及 REINFORCE 这 个 
策略 梯度 算法 在 其 中 扮演 的 和 角色。 该 图 中 涵盖 了 解决 方案 的 所 有 主要 部 分 。 在 每 一 步 中 ,智能 体 
会 使 用 一 个 名 为 策略 网 络 的 神经 网 络 来 估计 回 左 推动 小 车 (估计 回 左 推 和 回 右 推 是 等 效 的 ) 是 正 
确 决 策 的 概率 。 通 过 随机 采样 ， 各 个 行为 所 对 应 的 正确 决策 概率 会 被 转换 为 实际 行为 。 这 种 随机 
采样 会 吉 励 智能 体 在 早期 尽 可 能 地 探索 各 种 决策 组 合 , 但 在 后 期 会 遵守 概率 估计 中 的 确定 性 。 随 
机 采样 选择 的 行为 会 驱动 倒立 摆 在 环境 中 变化 。 环 境 会 根据 所 执行 的 行为 给 予 智 能 体 对 应 的 奖 
励 ， 直 到 回合 结束 。 这 一 过 程 会 持续 很 多 回合 。REINFORCE 算法 会 记录 这 一 过 程 的 各 个 时 间 步 
中 产生 的 奖励 、 行 为 和 策略 网 络 的 输出 。 接 下 来 就 需要 用 REINFORCE 算法 更 新 策略 网 络 了 。 
REINFORCE 算法 通过 折扣 化 和 标准 化 奖励 来 判别 策略 网 络 的 决策 好 坏 。 随 后 ， 它 会 依据 判别 的 
结果 更 新 策略 网 络 的 权重 , 使 其 在 未 来 能 够 做 出 更 好 的 预测 。 这 一 流程 会 持续 很 多 次 ， 直 到 训练 
结束 〈 比如 智能 体 的 性 能 达到 一 定 靖 值 时 )。 


























环境 
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图 11-8 ”基于 REINFORCE 算法 的 平衡 倒立 摆 解 决 方案 的 示意 图 。 该 图 是 图 11-4 的 扩展 版 


让 我 们 暂时 抛 开 这 些 精 马 的 技术 细 季 ， 从 更 安 观 的 角度 看 看 本 示例 所 展现 出 的 RL 问题 的 基 
本 特征 。 本 示例 采用 的 基于 RL 的 策略 和 非 机 融 尝 习 策略 〈 比如 传统 的 控制 论 方法 ) 相 比 有 一 些 
明显 的 优势 ， 尤 其 是 它 对 不 同 问题 的 普 适 性 ， 以 及 不 需要 过 多 人 力 投入 等 特点 。 在 有 些 场景 中 ， 
系统 的 一 些 特性 可 能 非常 复杂 ， 甚 至 是 未 知 的 ， 此 时 RL 策略 就 是 唯一 的 选择 了 。 如 采 系 统 的 特 
征 会 随时 间 变 化 ， 我 们 无 须 每 次 者 从头 推导 新 的 基于 数学 公式 的 解决 方案 ， 可 以 只 重新 运行 RL 











11.3 ”价值 网 络 和 OO 学习 :《 贪 吃 蛇 》 游 戏 示 例 337 


算法 ， 让 智能 体 自 适应 新 的 场景 。 

RL 策略 的 缺点 就 是 需要 在 环境 中 进行 大 量 重 复 的 试 错 。 这 一 点 在 RL 的 相关 人 研究 领域 中 仍 
是 个 甚而 未 决 的 问题 。 对 于 平衡 倒立 摆 问 题 ,需要 约 400 个 回合 才能 达到 目标 水 平 。 一 些 传统 的 
非 RL 策略 可 能 不 需要 任何 试 错 ， 只 要 实现 完 这 些 基 于 控制 论 的 算法 ,智能 体 在 第 一 个 回合 就 能 
做 到 平衡 倒立 摆 。 对 于 本 示例 而 言 ，RL 对 重复 试 错 的 依赖 不 是 大 问题 ， 因 为 用 计算 机 仿真 整个 
环境 人 简单、 快速 又 便宜 。 然 而 , 在 一 些 更 贴近 现实 的 问题 ( 比如 目 动 驾驶 汽车 和 机 械 辟 抓 取 物 品 ) 
中 ，RL 的 这 个 缺点 就 成 了 一 块 难 踢 的 硬骨头 。 没 人 能 承担 训练 智能 体 时 出 区 驶 事故 或 损坏 成 百 
上 和 于 个 机 械 臂 的 损失 ， 更 别 说 在 这 样 的 实际 问题 中 ，RL 训练 所 需 的 漫长 时 间 也 是 难以 接受 的 。 

至 此 , 我 们 的 第 一 个 RL 示例 就 结束 了 。 平衡 倒立 摆 问 题 有 些 其 他 RL 问题 中 没有 的 独特 性 。 
例如 ， 很 多 RL 环境 不 会 每 一 步 都 给 智能 体 一 个 正 辐 奖励 。 有 些 场景 中 ， 智 能 体 可 能 每 一 步 中 要 
做 十 几 个 决策 ， 甚 至 可 能 更 多 ,才能 得 到 正 回 奖励 。 在 获得 这 些 正 辐 奖 励 的 间隔 中 ,， 可 以 没有 任 
何其 他 奖励 ， 也 可 能 只 有 人 负 问 奖励 (可 以 说 现实 生活 中 ,很 多 人 类 的 行为 就 是 这 样 ， 例 如 学 习 、 
锻炼 和 投资 )。 此 外 ,平衡 倒立 摆 系 统 是 “无 记忆 的 ”， 因 为 系统 的 运行 机 制 和 智能 体 的 决策 历史 
无 关 。 很 多 RL 问题 比 这 还 要 复杂 ， 因 为 智能 体 的 行为 会 改变 环境 的 某 些 部 分 。 在 下 一 将 介绍 
的 RL 问题 中 ， 正 癌 奖 励 的 分 布 是 稀 跑 的 ， 并 有 旦 环境 会 随 智能 体 的 行为 历史 而 变化 。 为 了 应 对 这 
个 新 问题 ， 本 书 将 介绍 男 一 个 有 效 且 流行 的 RL 算法 : 深度 OO 学习 (deep O-learning )。 


11.3 ”价值 网 络 和 Q 学 习 :《 贪 吃 紫 》 游 戏 示例 


本 节 中 将 使 用 经 典 的 《 贪 吃 蛇 》 游 戏 作 为 讲解 深度 0 学 习 的 示例 问题 。 正 如 上 一 节 中 所 做 
的 ， 我 们 会 先 描述 RL 问题 和 它 具 有 挑战 性 的 地 方 ， 同 时 还 会 探讨 为 何 策略 梯度 和 REINFORCE 
算法 不 适用 于 解决 本 问题 。 












































11.3.1 用 强化 学 习 的 框架 定义 贫 吃 蛇 问 题 


《 仙 吃 蛇 》 游 戏 最 早出 现在 20 世纪 70 年 代 的 街机 上 。 如 今 ， 它 已 经 成 为 一 个 著名 的 电子 游 
戏 流 派 。tfjs-examples 代码 仓库 的 snake-dqn 文件 夹 中 的 代码 用 JavaScript 实现 了 贪 吃 蛇 游 戏 的 一 
个 简单 变种 。 可 以 用 下 面 的 代码 下 载 并 运行 该 示例 程序 。 


git clone https://github.com/tensorflow/tfjs-examples.git 








cd tfjs-examples/snake-dqan 
yarn 
yarn watch 


在 yarn watch 打开 的 网 页 中 ， 你 会 看 到 《 贪 虑 蛇 》 的 游戏 界面 。 可 以 加 载 一 个 预 训练 的 ， 
或 者 存储 在 远 端 的 深度 O 网 络 ( deep QO-network, DQN ) 模型 ， 然 后 观察 它 如 何 自动 地 玩 贪 吃 蛇 
游戏 。 称 后 将 介绍 如 何 从 尖 开 始 训 练 这 样 的 模型 。 丈 现在 而 言 ,通过 观察 来 下 观 地 感受 游戏 的 运 
行 机 制 就 足够 了 了。 如 末 你 之 前 对 贪 吃 蛇 游 戏 并 不 了 解 ， 请 看 下 面 对 它 的 设 定 和 规则 的 概览。 

站 完 ， 所 有 的 行为 虱 发 生 在 一 个 9 x 9 的 网 格 志 界 中 ( 见 图 11-9 中 的 示例 )。 志 界 ( 即 游 戏 
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界面 ) 可 以 更 大 , 但 是 9 x 9 是 本 示例 的 默认 尺寸 。 界 面 中 的 方 格 共 可 分 为 3 种 类 型 : 蛇 、 水 末 
和 空 日 区 域 。 深 色 表 示 蛇 号 , 浅 色 加 半圆 表示 蛇 头 (半圆 是 蛇 的 嘴 )， 圆 形 方块 表示 水 果 ， 空 日 
区 域 就 是 日 色 。 游 戏 会 按 步 怒 进 行 ， 或 者 用 游戏 的 术语 来 说 ， 会 按 帧 ( frame ) 进行 。 在 每 一 帧 
中 ,智能 体会 从 蛇 的 3 种 可 能 行为 中 选择 一 个 执行 。 这 3 种 行为 分 别 是 直 走 、 左 转 、 右 转 ( 蛇 不 
能 不 动 )、 如 末 蛇 的 头 部 碰 到 水 果 方 块 ， 乔 能 体 就 会 得 到 正 癌 奖励 。 然 后 ， 水 果 会 日 动 消 失 ( 因 
为 被 蛇 “ 吃 ”了 )， 蛇 的 尾部 也 会 增加 一 格 的 长 度 。 一 个 新 的 水 果 会 随机 出 现在 剩余 空 日 空间 中 
的 一 个 格子 里 。 如 来 在 菏 一 步 中 ， 蛇 没有 上 吃 a 到 水 琳 ， 那么 它 束 会 得 到 人 负 癌 奖励 。 当 蛇 的 头 部 揪 到 
边界 时 ( 见 图 11-9b ) 或 目 己 的 生体 时 〈 见 图 11-9c )， 游 戏 就 会 终止 ( 因为 蛇 “ 死 ”了 )。 


a b C 

















图 11-9 贪 吃 蛇 游 戏 规则 的 示意 图 。 贪 吃 蛇 的 游戏 界面 是 一 个 网 格 世 界 ， 玩 家 控制 蛇 在 这 个 世界 
中 吃水 琳 。 蛇 的 “目标 ”是 通过 局 效 移动 模式 ( 图 11-9a ) 吃 到 尽 可 能 多 的 水 采 。 每 当 
蛇 吃 到 一 个 水 果 时 ， 其 喘 体 的 长 度 就 会 增加 一 格 。 只 要 蛇 撞 到 界面 的 边界 ( 图 11-9b ) 
或 目 己 的 吴 体 (图 11-9c )， 游 戏 就 结束 了 代表 蛇 的 “死亡 ”)。 注 意 ， 在 图 11-9b 中 ， 
蛇 的 头 部 已 经 触 碰 到 了 界面 的 边缘， 如 果 接 下 来 执行 的 是 径直 向 前 的 行为 ,那么 游戏 就 
会 结束 。 但 是 蛇 的 头 部 刚 到 达 界 面 边 绿 时 并 不 会 叶 致 游戏 结束 。 蛇 每 吃 到 一 个 水 果 ， 束 
会 得 到 非常 丰厚 的 正 向 奖励 。 如 果 移 动 一 格 , 但 没 吃 到 任何 水 果 ， 就 会 得 到 较 小 的 负 辐 
奖励 。 游 戏 结束 即 蛇 死 掉 ) 也 会 得 到 人 负 向 奖励 


贪 吃 蛇 游戏 的 主要 难点 在 于 蛇 里 是 会 增长 的 。 如 果 不 是 因为 这 条 规则 , 游戏 就 会 变 得 简单 得 
多 ,只 需要 控制 蛇 去 不 集 地 吃水 果 就 可 以 了 ,并 且 智 能 体能 得 到 的 总 奖励 是 没有 上 限 的 。 有 了 长 
度 增长 规则 后 , 智能 体 就 必须 学 习 避 免 撞 到 自己 的 喘 体 以 及 墙壁 了 。 随 着 蛇 吃 到 的 水 有 果 数 量 增长 
和 号 体 长 度 增 长 ， 这 会 变 得 越 来 越 难 。 同 样 作为 RL 问题 ， 贪 吃 蛇 的 这 种 变化 的 特性 是 平衡 倒立 
摆 问 题 所 没有 的 ， 正 如 上 一 节 的 结尾 所 说 的 那样 。 

表 11-2 中 以 标准 的 RL 术语 摘 述 了 贪 吃 紫 问题 。 和 平衡 倒立 摆 问 题 ( 见 表 11-1 ) 的 定义 相 比 ， 
信 吃 蛇 问 题 的 最 大 不 同 是 奖励 结构 。 在 贪 吃 蛇 问 题 中 ， 正 癌 奖 励 (每 吃 一 个 水 果 就 加 10 ) 出 现 
得 并 不 频 楷 。 换 言 之 ， 只 有 经 过 一 连 串 为 吃 到 水 条 而 进行 移动 导致 的 负 回 奖励 后 , 才 可 能 得 到 正 
加 奖励 。 就 当前 的 界面 太 才 而 言 ， 就 算 屹 总 是 采取 最 高 效 的 移动 方式 ， 获 得 两 个 正 回 奖励 的 间隔 
可 能 也 会 相差 17 步 。 每 次 移动 市 来 的 小 颌 人 负 问 奖励 是 一 种 德 训 制 度 ， 它 主要 用 于 发 励 蛇 尺 可 能 
不 要 走 守 路 。 如 来 没有 这 个 惩 寞 ， 蛇 虽然 可 以 得 到 同样 的 奖励 ， 但 会 以 晓 昨 曲折 的 方式 移动 。 这 
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会 不 必要 地 拖延 测试 和 训练 的 过 程 。 这 种 复 森 的 奖励 结构 和 稀 玖 的 分 布 是 策略 梯度 和 REINFORCE 
方法 不 适用 于 贪 吃 屁 问 题 的 主要 原因 。 策 略 梯度 方法 更 适用 于 奖励 高 频 发 生 且 绪 构 侧 单 的 场景 ， 
例如 平衡 倒立 摆 问 题 。 


表 11-2 用 RL 的 标准 术语 描述 贪 吃 蛇 问 题 





抽象 的 RL 概念 贪 乃 蛇 问 题 中 所 对 应 的 具体 部 分 
环境 一 个 包含 可 移动 的 蛇 和 ( 被 吃 掉 后 ) 目 动 补充 的 水 果 的 网 格 世 界 
行为 (行为 是 离散 的 ) 

共有 3 种 可 选 的 行为 : 下 走 、 左 转 、 右 转 
奖励 (奖励 的 频率 很 高 ， 且 有 正 有 仙 ) 





。 吃 到 一 个 水 果 会 获得 大 额 正 向 奖励 (+10 ) 
。 只 是 移动 而 没 吃 到 水 果 会 获得 小 额 负 问 奖 励 ( -0.2 ) 
e。 死亡 会 获得 大 额 负 向 奖励 ( -10 ) 
见 察 ( 能 观察 到 完整 的 、 离 散 的 状态 ) 
在 每 一 步 中 ， 智 能 体能 够 获取 游戏 的 完整 的 状态 ， 即 界面 中 每 个 格子 的 类 型 








贪 吃 蛇 的 JavaScript API 

可 以 在 snake-dqn/snake_game,js 文件 中 找到 贪 吃 蛇 游 戏 的 JavaScript 代码 。 此 处 仅 介 绍 
SnakeGame 类 的 API， 不 会 歼 述 其 实现 的 细节 。 如 果 你 有 余力 且 对 其 实现 感 兴趣 ， 可 以 自行 研 
究 实 现 部 分 的 代码 。 下 面 是 实例 化 SnakeGame 类 的 代码 : 











const game = new SnakeGame ({height, width, numFruits, initLen});} 





此 处 height 和 wigdth 参数 共同 定义 了 界面 的 尺寸 ， 它 们 的 默认 值 都 是 9。numFruits 定义 
了 任意 时 刻 界 面 中 允许 同时 存在 的 水 果 数 量 , 默认 值 是 1。initLen 是 蛇 的 初始 长 度 , 默认 值 是 2。 
game 对 和 象 会 暴露 出 一 个 step () 方 法 。 可 以 调用 该 方法 驱动 游戏 前 进 一 个 时 间 步 。 


const {state, reward, done, fruitEaten} = game.step (action),; 





step () 方 法 的 参数 表示 该 步 中 执行 的 行为 : 0 表示 前 进 ; 1 表示 左 转 ; 2 表示 右 转 。step () 
的 返回 信和 包含 以 下 属性 。 

D state: 行为 执行 完 后 ， 界 面 进入 的 新 状态 。 它 是 一 个 拥有 两 个 属性 的 JavaScript 对 和 象 。 

加 S: 蛇 所 占 的 格子 。 它 是 由 [x，y] 坐标 元 素 组 成 的 数组 。 数 组 是 按 蛇 刁 体 部 位 有 序 排 
列 的 。 数 组 的 第 一 个 元 素 是 屹 头 的 位 置 ， 最 后 一 个 元 素 是 紫 尾 的 位 置 。 

@£: 水 条 所 占 的 格子 。 它 是 由 水 东 的 [x，y] 坐 标 组 成 的 数组 。 
注意 ， 以 这 种 方式 表示 界面 的 状态 是 为 了 降低 空间 复杂 度 ， 因 为 2 学 习 算 法 需要 存储 大 
量 这 样 的 状态 对 象 〈 比如 可 以 多 达 上 万 个 ， 稍 后 会 展示 这 一 点 )。 另 一 种 表示 方式 是 用 效 
组 或 航 套 数组 记录 界面 中 每 一 格 的 状态 ， 包 括 空 白 的 格子 。 就 空间 复杂 上 度 而 言 ， 这 样 做 
比较 低 效 。 

口 reward: 行为 发 生 后 给 予 蛇 的 瞬时 奖励 ， 是 单个 数值 。 




















340 第 11 章 深度 强化 学 习 的 基本 原理 





口 aone: 指明 行为 发 生 后 游戏 是 否 结束 的 布尔 值 。 
D fruitEaten: 指明 行为 是 否 帮 助 蛇 吃 到 水 果 的 布尔 值 。 注 意 ， 此 信息 和 rewara 属性 有 
部 分 重合 ， 因 为 可 以 从 reward 推 则 蛇 是 否 吃 到 水 东 。 引 入 这 个 属性 有 两 个 目的 ， 一 是 
为 了 使 用 上 的 方便 ， 二 是 为 了 将 奖励 的 准确 数值 (可 以 是 可 调 的 超 参 数 ) 和 水 果 是 否 被 
吃 到 这 个 二 元 事件 解 耘 。 
我 们 会 在 之 后 的 讨论 中 看 到 ， 前 三 个 属性 ( state、reward 和 done ) 对 0 学 习 算 法 而 言 
至 关 重 要 ， 而 最 后 一 个 属性 ( fruitEaten ) 则 主要 用 于 监测 蛇 的 行为 结果 。 


11.3.2 ”马尔 可 夫 决 策 过 程 和 Q 值 


在 解释 贪 吃 蛇 问题 使 用 的 O 学习 算法 前 ， 需 要 先 介 绍 一 些 略 显 抽象 的 背景 知识 。 具 体 而 言 ， 
我 们 会 先 简要 地 介绍 马尔 可 夫 决 策 过 程 (Markov decision process, MDP ) 及 其 背后 的 数学 理论 。 
别 紧张 ， 接 下 来 我 们 会 用 简单 易 懂 的 具体 示例 将 这 些 抽象 的 概念 和 手头 的 贪 吃 蛇 问题 联系 起 来 。 

从 MDP 的 角度 来 看 , RL 环境 的 历史 就 是 一 系列 的 状态 过 渡 。 这些 状态 都 来 目 一 个 有 限 且 离 
散 的 状态 集合 。 此 外 ， 状 态 间 的 过 渡 必 须 亲 守 如 下 的 规则 . 


环境 在 下 一 步 中 的 状态 完全 由 当前 时 间 步 中 环境 的 状态 和 智能 体 执行 的 行为 决定 。 


关键 在 于 下 一 个 状态 仅 由 两 个 因素 决定 : 当前 的 状态 和 执行 的 行为 。 除 此 之 外 , 下 一 个 状态 
和 其 他 任何 因素 都 无 关 。 换 言 之 ，MDP 假设 环境 的 历史 〈 即 如 何 达到 当前 状态 ) 和 决定 下 一 步 
该 做 什么 无 关 。 对 问题 的 这 种 简化 使 状态 的 变化 更 加 可 追溯 。 那 么 什么 是 非 马尔 可 夫 决 策 过 程 
(non-Markov decision process ) 呢 ? 这 对 应 的 是 下 一 个 状态 不 仅 依赖 于 当前 状态 和 行为 ， 还 依赖 
于 更 早 的 状态 和 行为 的 场景 ， 有 时 “更 早 ” 可 能 意味 着 要 追溯 到 回合 的 初始 时 间 步 。 在 非 MDP 
场景 中 ， 数 学 公式 会 更 为 复杂 ， 并 且 需 要 更 多 的 算 力 才 能 完成 计算 。 

直觉 上 而 言 ， MDP 的 这 个 规则 对 于 很 多 RL 问题 都 是 合理 的 。 国 际 象 棋 就 是 个 好 例子 。 在 对 
弈 的 每 一 步 中 ， 当 前 的 棋局 (加 上 现在 轮 到 谁 下 棋 的 信息 ) 已 经 包含 了 完整 的 游戏 状态 ， 以 及 玩 
家 决定 下 一 步 如 何 下 棋 的 所 有 必要 信息 。 换 言 之 ， 完 全 可 以 在 不 知道 之 前 的 下 棋 记 录 的 情况 下 ， 
从 当前 的 棋子 摆 放 开始 继续 下 棋 。( 这 可 能 是 巧合 ， 因 其 能 够 解释 为 何 报纸 可 以 刊登 象棋 棋局 作 
为 解 谜 游戏 , 而 不 用 担心 它们 占据 过 多 版 面 。) 像 贪 吃 蛇 这 样 的 电子 游戏 也 符合 MDP 的 定义 。 蛇 
和 水 果 在 界面 上 的 位 置 已 经 能 够 完整 地 描述 游戏 的 状态 ,智能 体 仅 靠 该 信息 就 可 以 跳 到 任意 状态 
继续 游戏 ， 同 时 决定 下 一 步 蛇 该 往 哪 里 移动 。 

尽管 像 国 际 象棋 和 贪 吃 蛇 这 样 的 问题 和 MDP 非常 匹配 ， 但 它们 可 能 涉及 的 状态 都 是 天 文 数 
字 。 为 了 更 直观 地 可 视 化 MDP 的 概念 ， 我 们 需要 一 个 更 简单 的 示例 。 在 图 11-10 中 ， 我 们 展示 
了 一 个 非常 简单 的 MDP 问题 。 它 共有 7 个 可 能 的 状态 和 两 个 智能 体 可 执行 的 行为 。 状 态 间 的 过 
渡 会 遵循 以 下 规则 。 

口 初始 状态 总 是 51。 

口 在 状态 si 下， 如 果 智 能 体 执行 行为 a1， 则 环境 会 进入 状态 >。 如 果 智 能 体 执行 行为 a,， 

则 环境 会 进入 状态 5s;3。 
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口 对 于 状态 9 和 状态 % 而 言 ， 它 们 会 床 循 与 si 类似 的 规则 过 渡 到 下 个 状态 。 
口 状态 s4、ss、se 和 $y 是 终止 状态 (terminal state )。 也 就 是 说 ， 只 要 进入 这 中 间 的 任何 一 种 
状态 ， 回 合 就 结束 了 。 

因此 ， 在 这 个 RL 问题 中 ， 每 个 回合 都 会 正好 持续 三 个 时 间 步 。 那 么 智能 体 该 如 何 选择 第 一 
个 行为 和 第 二 个 行为 呢 ? 因为 这 是 一 个 REL 问题 ， 所 以 只 有 引入 奖励 的 概念 时 ， 这 个 讨论 才 有 意 
义 。 在 MDP 问题 中 ， 每 个 行为 不 仅 会 导致 状态 变化 ， 还 会 带 来 奖励 。 在 图 11-10 中 ， 奖 励 用 将 
行为 和 下 个 状态 连接 的 箭头 表示 。 它 们 的 标签 为 = <rewardq_value>。 智 能 体 的 目标 当然 是 
最 大 化 (折扣 化 后 的 ) 总 奖励 。 现 在 ， 想 象 我 们 就 是 还 在 第 一 步 的 智能 体 。 接 下 来 模拟 决定 该 执 
行 ql 还 是 @ 的 思考 过 程 。 假 设 奖励 的 折扣 因 了 于 〈y ) 的 值 为 0.9。 
































图 11-10 一 个 简单 的 马尔 可 夫 决 策 过 程 (MDP ) 的 具体 示例 。 用 w% 标记 的 灰色 圆圈 代表 各 种 状态 ， 

用 标记 的 各 种 灰色 圆圈 代表 各 种 行为 。 行 为 通过 触发 状态 变化 获得 的 奖励 用 x =x 表示 
思考 过 程 如 下 所 示 。 如 果 选 择 执 行 行为 a ， 那 么 就 会 得 到 瞬时 奖励 -3， 并 过 渡 到 状态 s,。 如 
果 选 择 行为 a;,， 那么 就 会 获得 瞬时 奖励 3， 并 过 渡 到 状态 9%。 这 是 否 意味 着 q; 是 更 好 的 选择 呢 ( 毕 
范 3 比 -3 大 ) ? 答案 是 否定 的 ， 因 为 3 和 -3 都 只 是 瞬时 奖励 ， 此 时 尚未 考虑 后 续 时 间 步 中 可 能 得 
到 的 奖励 。 现 在 应 该 看 看 从 mw 和 ;出 发 能 得 到 的 最 佳 结果 。 从 s; 出 发 的 最 佳 结果 是 什么 ”结果 就 
是 行为 2 市 来 的 奖励 , 即 10。 由 此 可 以 得 出 , 从 状态 % 出 发 , 选择 行为 a 得 到 的 最 佳 折扣 化 奖励 。 





























从 状态 si 执行 行为 ql 得 到 最 住 奖励 = 瞬时 奖励 + 折扣 化 的 未 来 奖励 
=-3+yx10 
=-3 十 0.9x10 
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与 此 类 侯 ， 从 5 出 发 ,执行 a; 得 到 的 结 琳 束 是 最 佳 奖励 ， 即 -4。 因 此 ， 如 采 ， 从 状态 s1 执 
行 行为 2， 就 会 得 到 如 下 所 示 的 最 佳 打 扣 化 奖励 。 





从 状态 si 执行 行为 a; 得 到 最 住 奖励 = 瞬时 奖励 + 折扣 化 的 未 来 奖励 
一 3 十 y x 三 才 
=3++0.9x 一 4 
三 -0U0.0 


此 处 计算 的 折扣 化 奖励 实际 是 一 种 CO 值 ( O-value )。O 值 是 给 定 状 态 下 ， 行 为 预期 的 (经 过 
折扣 化 的 ) 总 累积 奖励 。 从 这 些 0 值 来 看 ， 很 明显 在 状态 % 时 ，awi 是 更 好 的 选择 。 这 个 结论 和 
只 考虑 第 一 个 行为 获得 的 瞬时 奖励 时 得 出 的 结论 是 不 同 的 .本章 末尾 的 练习 (3) 会 引导 你 计算 更 贴 
近 现 实 的 、 包 含 随机 性 的 MDP 场景 的 O 值 。 

这 个 示例 的 思考 过 程 可 能 看 起 来 很 浅显 。 但 是 ， 由 此 可 以 得 出 一 个 对 0 学习 而 言 非 常 核心 
的 概念 ， 那 就 是 用 O(s, a) 表 示 的 0 值 是 当前 状态 (s ) 和 行为 (a ) 的 函数 。 换 言 之 ，OG, go) 函 数 
可 以 将 每 对 状态 和 行为 映射 到 在 特定 状态 下 执行 特定 行为 的 预 估价 值 。 这 个 价值 是 比较 有 远见 
的 ， 因 为 它 会 考虑 到 未 来 可 获得 的 最 佳 奖 励 (假设 之 后 每 个 行为 都 是 最 优 的 )。 

得 益 于 这 种 远见 ， 对 于 任何 给 定 的 状态 ， 仅 乱 O(s, a) 就 能 决定 最 佳 行为 是 什么 。 具 体 而 言 ， 
只 要 能 得 到 QO(s, 四 的 值 ， 最 佳 行为 就 是 所 有 可 能 行为 中 能 带 来 最 高 O 值 的 行为 。 

给 出 O(s; a1), O(5i, 42),… ,QO(si, am 中 最 高 人 的 a (11.2) 

公式 (11.2) 中 的 NN 是 所 有 可 能 行为 的 数量 。 如 果 能 够 较 准 确 地 估计 O(s, a)， 就 可 以 在 每 个 时 
间 步 采用 这 个 决策 过 程 。 这 样 就 可 以 保证 获得 尽 可 能 大 的 累积 奖励 。 如 此 ,“ 寻 找 最 佳 决 策 过 程 ” 
的 RL 问题 可 以 被 简化 成 学 习 函 数 O(s, q)。 这 就 是 这 个 学 习 算法 叫 作 2 学习 的 原因 。 

在 继续 深入 讨论 0 学 习 前 , 先 来 看 看 O 学习 和 在 平衡 倒立 控 问 题 中 见 过 的 策略 梯度 方法 有 何 
不 同 。 策略 梯度 的 本 质 是 预测 最 佳 行 为 。0O 学 习 的 本 质 则 是 预测 所 有 可 能 行为 的 价值 ( 即 O 值 )。 
条 略 柳 度 可 以 下 接 告 诉 我 们 应 该 选择 哪个 行为 。 0 学 习 则 需要 额外 的 步 又 来 选择 最 大 的 0O 值 , 因 
此 它 更 为 间接 。 这 种 间接 性 的 好 处 是 , 在 连续 的 步骤 间 建 立 奖励 和 价值 的 关联 变 得 更 容易 。 这 有 
助 于 对 《 贪 吃 蛇 》 这 类 涉及 稀 玻 正 向 奖励 的 问题 的 学 习 。 

那么 连续 的 步骤 间 奖 励 和 价值 的 关联 是 什么 呢 ? 解决 图 11-10 中 简单 的 MDP 问题 时 ， 我 们 
已 经 看 到 了 些许 端倪 。 这 种 关联 可 以 用 以 下 数学 公式 表示 。 

Op a) =7+Y [QO(snext, 41), O(Snext, 42),…* , QO(snexts an) 中 的 最 高 值 ] (11.3) 
其 中 swoon 是 从 状态 5; 选 择 一 个 行为 过 渡 到 的 状态 。 公 式 (11.3) 叫 作 贝 尔 曼 方程 ( Bellman equation ) ”。 
贝尔 受 方程 是 对 之 前 的 简单 示例 中 如 何 从 行为 wa 和 行为 a; 中 分 别 得 到 数字 6 和 -0.6 的 一 种 归纳 。 
用 通俗 易 懂 的 话 来 解释 就 是 ， 该 公式 描述 了 以 下 规则 。 


在 状态 s; 下， 执行 行为 的 O 值 是 以 下 两 项 的 总 和 : 
(1) 由 行为 a 导致 的 瞬时 奖励 ; 
























































Oz 该 方程 的 命名 缘 于 美国 应 用 数学 家 理 查 德 . 贝尔 曼 ( 1920 一 1984 )。 参 见 他 在 1957 年 由 普林斯顿 大 学 出 版 社 的 出 
版 的 著作 Dynamic Programming。 
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(2) 由 下 一 状态 能 得 到 的 最 佳 O 值 乘 以 折扣 因子 的 结果 (这 里 的 “最 佳 ” 是 指 在 下 
个 状态 中 选择 最 优 的 行为 )。 


正 是 贝尔 曼 方 程 使 2 学 习 成 为 可 能 ， 因 此 一 定 要 理解 它 。 身 为 程序 员 ， 你 可 能 已 经 敏锐 地 
发 现 贝尔 曙 方 程 (公式 (11.3) ) 其 实 是 递归 的 。 这 是 因为 公式 等 号 右边 的 所 有 2 值 部 可 以 进一步 
用 贝尔 受 方 程 目 身 进行 扩展 。 图 11-10 中 展示 的 示例 经 过 两 次 决策 就 结束 了 ， 而 现实 中 的 MDP 
问题 涉及 的 时 间 步 和 状态 则 多 得 多 。 在 这 类 “状态 -行为 -过 渡 ” 天 系 图 中 ， 甚 至 还 可 能 存在 环 
(cycle )。 但 贝尔 曼 方 程 的 魅力 和 威力 就 在 于 ， 即 使 状态 空间 可 能 很 大 ， 它 也 可 以 帮助 我 们 将 0 
学 习 问 题 转换 成 监督 式 学 习 问 题 。 下 一 节 中 将 讲解 其 中 的 原因 。 























11.3.3 这 度 Q 网 络 


手动 编写 O(s, a) 消 数 可 能 非 第 困难 ,因此 我 们 会 将 该 函数 转化 成 一 个 深度 神 经 网 络 ( 即 本 市 
之 前 提 到 的 DQN )， 并 训练 它 的 参数 。DQN 会 接收 一 个 表示 环境 完整 状态 的 输入 张 量 。 换 言 之 ， 
该 张 量 表示 的 是 贪 吃 蛇 游 戏 界面 上 所 有 格子 的 状态 。 这 些 状 态 智 能 体 都 可 以 观 绎 到 。 如 图 11-11 
所 示 ， 张 量 的 形状 为 [9，9，2] (不 包括 批 次 维度 )。 前 两 个 维度 对 应 的 是 游戏 界面 的 高 和 宽 。 
因此 ， 可 以 将 该 瑟 量 看 作 界 面 中 所 有 格子 的 点 阵 图 表示 。 最 后 一 个 维度 的 数值 (2 ) 对 应 的 是 两 
个 通道 ,它们 分 别 表示 蛇 和 水 采 。 具 体 而 言 ， 第 一 个 通道 负责 编码 蛇 的 有 关 信 息 ， 蛇 的 头 部 标记 
为 >， 号 体 部 分 则 标记 为 1。 第 二 个 通道 负责 编码 水 采 ， 如 果 格 子 中 有 水 果 ， 则 其 值 为 1。 在 两 
个 通过 中 , 空格 子 郡 以 0 表示 。 注 意 ， 这 些 像 系 值 和 通道 数量 在 东 种 程度 上 是 任意 选择 的 。 其 他 
值 同样 可 以 表示 状态 (例如 用 100 表示 蛇 头 、50 表示 蛇 吴 , 或 者 将 蛇 涉 和 蛇 映 用 两 个 单独 的 通道 
表示 )， 只 要 能 够 区 分 开 3 种 类 型 的 格子 ( 蛇 头 、 蛇 吴 和 水 来 ) 即 可 。 


两 个 通道 中 的 第 1 个 : 蛇 























(游戏 状态 ) 2 


Reward=60.6: Fruits=9 < 王 


\n 


QA 





图 11-11 将 《 贪 吃 蛇 》 游 戏 界面 表示 成 形状 为 [9，9，21 的 三 维 张 量 的 示意 图 
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注意 , 相 较 于 上 一 方 用 JSON 中 的 s 和 两 个 属性 表示 游戏 状态 而 言 , 这 种 采用 张 量 的 表示 
方式 在 空间 复杂 上 度 上 要 低 效 得 多 。 这 是 因为 ， 无论 蛇 的 长 度 有 多 长 ,其 状态 都 包含 界面 中 有 所 有 格 
子 的 信息 。 这 种 较 低 效 的 表示 只 有 在 用 反问 传播 算法 更 新 DQN 的 权重 时 才 会 用 到 。 此 外 ， 在 同 
一 时 刻 ， 只 有 少量 的 游戏 状态 ( 由 batchsize 决定 ) 会 以 这 种 方式 表示 ， 因 为 我 们 采用 的 是 基 
于 批 次 的 训练 范式 ， 稍 后 会 介绍 。 

你 可 以 在 snake-dqn/snake game.js 文件 的 get stateTensor () 国 数 中 ， 找 到 负责 将 界面 状 
态 的 高 效 表 示 转 换 成 图 11-11 中 展示 的 三 维 张 量 的 代码 。DQN 的 训练 过 程 中 会 频繁 用 到 该 旺 数 ， 
但 是 此 处 省 略 了 它 的 实现 细节 ,因为 该 国 数 只 是 机 械 地 根据 迪 和 水 果 的 位 置 给 张 量 的 元 和 素 赋 仁 
= 

你 可 能 已 经 发 现 ， 这 种 [height，width，channel] 的 输入 格式 简直 就 是 为 convnet 量 吴 
打造 的 。 此 处 使 用 的 DQN 是 我 们 已 经 很 熟悉 的 常规 convnet 架构 。 你 可 以 在 代码 清单 11-5 中 找 
到 定义 DQN 拓扑 结构 的 代码 ( 摘 目 snake-dqn/dqn.js。 为 了 保持 核心 逻辑 清晰 ,已 移 除 部 分 异常 
处 理 代码 ), 如 图 11-12 中 的 代码 和 示意 图 所 示 , 该 网 络 由 一 系列 conv2d 层 和 紧 接 着 的 MLP 模型 
组 成 。 此 处 还 加 入 了 一 些 额 外 的 层 ， 包 括 batchNormalization 层 和 dropout 层 ,来 增强 DQN 的 谤 
化 能 力 。DQN 的 输出 的 形状 为 [3] (不 包括 批 次 维度 )。 输 出 的 3 个 元 系 是 3 种 可 能 行为 ( 左 转 、 
前 进 和 右 转 ) 对 应 的 预测 0O 值 。 因 此 ，0QO(s, gw) 的 模型 是 一 个 神经 网 络 ， 该 网 络 的 输入 是 界面 的 状 
态 ， 输 出 则 是 在 该 状态 下 所 有 可 能 行为 的 CO 值 。 









































观察 
(游戏 状态 ) 
在 线 DQN 
转换 成 
加 | 张 量 表 示 一 
i 
而 面 [5 漫 让 2 次 ] 






LL; 3] 


图 11-12 ”用 于 估计 贪 吃 蛇 问 题 的 O(s, 四 函数 值 的 DQN 示意 图 。“ 在 线 DQN” 部 分 中 
“BN” 的 完整 写法 是 batchNormalization ( 意 为 批 标准 化 ) 





代码 清单 11-5 ”为 贪 吃 蛇 问题 创建 DQN 


export function createDeepQONetwork (h, w, numActions) { 





Const model = tf.sequential(); 
model.add (tf.layers.conv2dl(t{ 
filters: 128, 
kernelSize: 3, 


此 处 的 DQN 采用 的 是 典型 的 convnet 
架构 。 它 的 起 点 是 一 组 conv24 层 


strides: 1, 
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Stetivation: relu’, 如 图 11-11 所 示 ， 输 入 的 形状 和 
montehapes [i WwW; 2] 智能 体 观 察 的 张 量 形状 是 匹配 的 

})); 

model.add (tf.layers.batchNormalization()); 

model.add (tf.layers.conv2dl(t 引入 batchNormalization 层 来 
filters: 226, 应 对 过 拟 合 ,提高 模型 的 泛 化 能 


kernelSize: 3, 

strides: 1, 

activation: 'relu,' 
})); 
model.add (tf.layers.batchNormalization()); 
model.add (tf.layers.conv2dl(t{ 

filters: 256, 

kernelSize: 3, 

strides: 1, 


activation: 'relu,' DQN 的 MLP 部 分 的 
})); 第 一 层 是 扁平 化 层 
model.add (tf.layers.flatten!()) 
model.add(tf.layers.dense({units: 100, activation: 'relu'})); 
model.add(tf.layers.dropout ({rate: 0.25})); 和 batchNormalization 层 类 
model.add (tf.layers.dense({units: numActions})); 似 ， 添 加 aropout 层 也 是 为 了 
return model; 应 对 过 拟 合 


} 


让 我 们 暂停 一 下 前 进 的 脚步 ， 思考 一 下 为 何在 本 问题 中 要 用 神经 网 络 佑 计 O(s, 四 的 什 。 贪 吃 
蛇 游 戏 的 状态 空间 是 离散 的 (由 4 个 浮 点 数组 成 )， 这 点 和 平衡 倒立 摆 问 题 不 同 〈 后 者 的 状态 空 
间 是 连续 的 )。 因 此 ， 理 论 上 可 以 用 一 个 查询 表 (lookup table ) 来 实现 O(s, g) 困 数 。 换 言 之 ， 该 
表 可 以 将 界面 中 所 有 可 能 的 格子 状态 的 组 合 分 别 映射 到 一 个 2 值 。 既 然 如 此 ， 为 何 我 们 还 要 使 
用 DQN ， 而 不 是 查询 表 呢 ? 答案 是 ， 尽 管 界面 的 太 寸 较 小 49 x 9 ), 但 格子 状态 的 组 合 还 是 太 多 
了 。. “这 暴露 了 查询 表 方 法 的 两 大 缺点 。 首 先 ， 系 统 的 内 存 无 法 存储 如 此 庞大 的 查询 表 。 其 次 ， 
就 算 能 够 构建 一 个 内 存 够 大 的 系统 ,在 RL 算法 中 ， 智 能 体 查 询 状态 值 的 时 间 也 过 长 了 。 得 益 于 
其 相对 较 小 的 体积 〈 约 100 万 个 权重 参数 )，DQN 解决 了 第 一 个 问题 ( 即 内 存 空间 不 足 问 题 )。 
得 益 于 神经 网 络 的 泛 化 能 力 ， 它 也 成 功 解 次 了 第 二 个 问题 ( 即 状态 查询 时 间 过 长 问题 )。 就 像 之 
前 几 章 的 大 量 示例 所 展示 的 那样 ,在 预测 前 ， 神 经 网 络 无 有 顷 预 知 所 有 可 能 的 输入 。 它 可 以 利用 目 
己 的 泛 化 能 力 在 见 过 的 训练 示例 间 插 值 。 因 此 ， 使 用 DQN 可 谓 一 石 二 乌 。 
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QD 通过 粗略 的 计算 ,即使 将 蛇 的 长 度 限 制 在 20， 可 能 的 格子 状态 组 合 数 也 至 少 在 10 ”种 以 上 。 例如 , 假设 蛇 的 长 度 
是 20。 首 先 ， 蛇 头 的 位 置 共 有 9 x 9 = 81 种 可 能 。 其 次 ， 蛇 号 第 一 市 的 位 置 共 有 4 种 可 能 ， 第 二 市 的 位 置 共 有 3 
种 可 能 ， 以 此 类 推 。 当 然 ， 当 蛇 处 于 某 些 姿势 时 ， 特 定格 子 位 置 的 可 能 性 没有 达到 3 种 ,但 这 不 会 从 本 质 上 改变 
可 能 性 总 和 的 量 级 。 因 此 ， 经 过 估算 ， 长 20 的 蛇 可 能 的 身体 位 置 组 合 为 81 x4x3”107 种 。 由 于 对 于 蛇 的 每 种 
位 置 ， 水 果 的 位 置 共 有 61 种 可 能 ， 因 此 蛇 和 水 果 的 位 置 组 合约 有 10“ 种。 我 们 可 以 用 类 似 的 方法 得 出 蛇 长 小 于 
20 时 ( 即 长 2~19 时 )， 蛇 与 水 果 位 置 的 所 有 组 合 。 对 这 些 可 能 的 位 置 数 求 和 ， 就 得 到 了 最 后 的 结果 : 10”。 和 贪 
吃 蛇 界 面 中 的 格子 数 相 比 ， 雅 达 利 2600 风格 的 电子 游戏 中 的 像素 数 要 大 得 多 ， 因 此 就 更 没 法 使 用 查询 表 方 法 了 。 
这 是 用 RL 解决 电子 游戏 相关 问题 时 会 采用 DQN 的 一 大 原因 。DeepMind 的 Volodymyr Mnih 和 他 的 同事 于 2015 
年 发 布 的 里 程 碑 式 的 论文 充分 展示 了 这 点 。 
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11.3.4 ”训练 深度 Q 网 络 


至 此 ， 我 们 的 DQN 束 创 建 完毕 了 ， 它 能 够 在 《 贪 吃 蛇 》 游 戏 的 每 步 中 估计 3 种 可 能 行为 的 
0 值 。 要 想 获得 最 大 的 累计 奖励 ， 只 需要 将 智能 体 的 观察 作为 输入 ， 通 过 在 每 步 中 运行 DQN， 
根据 其 输出 , 选择 2 值 最 高 的 行为 执行 就 可 以 了 。 这 样 就 完了 吗 ?” 当然 没有 , 我 们 还 没 训练 DQN 
呢 ! 少 了 恰当 的 训练 ，DQN 的 权重 参数 仍 会 保留 在 刚刚 随机 初始 化 权重 的 状态 。 它 输出 的 行为 
和 随机 乱 猜 没什么 区 别 。 对 于 贫 吃 蛇 的 RL 算法 而 言 ， 只 剩 下 解决 DQN 的 训练 问题 了 ,这 也 正 
是 本 节 的 主要 目的 。 虽 然 训 练 过 程 有 点 复杂 ,但 别 担心 ， 书 中 会 用 大 量 的 示意 图 和 代码 请 段 来 逐 
步 讲解 整个 训练 流程 。 


1. 直观 理解 深度 Q 网 络 的 训练 过 程 

我 们 会 通过 让 DQN 的 输出 逐渐 再 近 贝尔 受 方 程 的 值 来 训练 DQN。 如 采 一 切 顺 利 ，DQN 的 
输出 既 会 体现 瞬时 奖励 ， 也 会 体现 折扣 化 后 的 未 来 最 佳 奖励 。 

那么 如 何 做 到 这 点 呢 ? 我 们 需要 很 多 对 输入 与 输出 的 组 合 。 其 中 的 输入 是 状态 和 实际 执行 的 
行为 ,输出 是 “正确 ”的 0 值 ( 即 目标 0 值 )。 获 得 输入 的 样本 需要 当前 的 状态 s; 和 在 该 状态 下 
执行 的 行为 a;。 这 两 个 要 系 都 可 以 直接 从 游戏 的 历史 记录 中 绑 得 。 计 算 上 日 标 2 值 需 要 瞬时 奖励 
六 和 下 个 状态 sa。 这 两 个 要 系 也 可 以 从 游戏 的 历史 记录 中 获得 。 通 过 将 x; 和 si41 的 值 输入 贝尔 曼 
方程 中 ， 就 能 算出 目标 2 值 ， 稍 后 会 详解 具体 的 计算 方法 。 我 们 随后 会 计算 DQN 预测 的 0 值 和 
由 贝尔 曼 方 程 得 出 的 目标 2 值 间 的 差距 ， 即 DQN 的 损失 。 随 后 就 可 以 用 标准 的 反 向 传播 和 梯度 
下 降 方 法 最 小 化 损失 〈 可 看 作 求 最 小 的 平方 值 ) 计算 方法 可 能 有 点 复杂 ， 但 它 背 后 的 思想 很 简 
持 。 为 了 做 出 正确 的 决 宁 ,需要 估计 0O 值 函数 的 值 。 同 时 ， 我 们 还 知道 估计 的 2 值 必须 和 环境 
的 瞬时 奖励 以 及 贝尔 受 方 程 的 输出 之 和 相 匹配 。 因 此 ,只 需要 通过 梯度 下 降 尽 可 能 让 两 者 匹配 就 
可 以 了 。 束 这 么 简单 ! 


2. 回放 记忆 : 用 于 训练 DQN 的 滚动 数据 集 

此 处 的 DQN 采 用 的 是 我 们 熟悉 的 convnet 架 构 ,， 它 是 用 TensorFlowjs 实现 的 tf .LayersModel 
实例 。 谈 到 如 何 训练 这 样 的 模型 , 我 们 首先 想到 的 可 能 是 调用 模型 对 象 的 fit () 或 fitDataset () 
方法 。 然 而 ， 此 处 不 能 使 用 常规 手段 ， 因 为 缺乏 一 个 含有 观察 到 的 状态 及 其 对 应 2 值 的 有 标签 
数据 集 。 问 题 在 于 ， 在 训练 DQN 之 前 ， 无 法 预知 O 值 。 如 果真 有 方法 知道 实际 的 0O 值 ， 那么 直 
接 在 马尔 可 夫 决 策 过 程 中 使 用 它 就 好 了 。 因 此 , 仅 靠 传统 的 监督 式 学 习 策 略 ， 我 们 就 会 隐 和 人 “ 先 
有 鸡 还 是 先 有 人 香 ” 的 困 局 。 这 是 因为 没有 训练 好 的 DQN， 就 无 法 估计 0O 值 ; 而 少 了 对 0O 值 的 准 
确 估计 , 就 无 法 训练 DQN。 下 面 介绍 的 REL 算法 可 以 帮助 解决 这 个 “ 先 有 鸡 还 是 先 有 香 ” 的 问题 。 

具体 而 言 ， 该 方法 会 先 让 智能 体 随机 玩 游 戏 〈 至 少 在 开始 阶段 是 这 样 )。 然 后 ， 智 能 体会 记 
住 游戏 每 一 步 中 发 生 的 事情 。 游 戏 过 程 中 的 决策 可 以 通过 随机 数字 生成 锅 实 现 。 而 记忆 部 分 ， 则 
需要 一 种 名 为 回放 记忆 (replay memory ) 的 数据 结构 来 实现 。 图 11-13 展示 了 回放 记忆 的 工作 原 




























































































J 此 处 的 滚动 (rolling ) 指数 据 集 中 的 数据 会 不 断 发 生变 化 ， 并 总 是 只 保留 一 定数 量 的 最 近 产 生 的 信息 。 译 者 注 
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理 。 对 于 游戏 的 每 一 步 ， 它 都 会 存储 以 下 5 项 数据 。 

(1) s;， 在 第 i 步 观察 到 的 状态 (界面 中 各 个 格子 的 类 型 )。 

(2) aj, 在 第 i 步 实际 执行 的 行为 (可 以 通过 图 11-12 中 所 示 的 DQN 选取 , 也 可 以 随机 选取 )。 

(3) ri;， 在 第 i 步 获 得 的 瞬时 奖励 。 

(4) qd;, 一 个 指明 这 一 步 后 游戏 是 否 会 立即 结束 的 布尔 值 。 由 此 可 以 看 出 回放 记忆 不 只 和 某 个 
特定 的 回合 有 关 ， 它 会 拼接 多 个 回合 的 结果 。 上 一 局 游戏 结束 后 ,训练 算法 会 自动 开启 一 局 新 游 
戏 ， 并 在 此 过 程 中 不 断 将 新 记录 添加 到 回放 记忆 中 。 

(5) sa1, 如 果 4 的 值 为 false， 则 它 就 是 下 一 步 观察 到 的 状态 。 否 则 ， 作 为 占 位 待 ， 它 的 值 


会 锌 变 为 null。 








回放 记忆 〈 尺 寸 =M) 
的 行为 收 到 的 奖励 游戏 结束 标识 下 一 个 观察 








时 间 步 





图 11-13 DQN 训练 过 程 中 使 用 的 回放 记忆 。 回 合 的 每 步 会 将 5 个 数据 追加 到 回放 记忆 的 
尾部 。 这 些 数 据 都 是 在 DQN 的 训练 过 程 中 采样 获得 的 
这 些 数 据 会 作为 输入 ， 进 入 DQN 基于 反 回 传播 的 训练 过 程 中 。 可 以 将 回放 记忆 看 作 DQN 
训练 使 用 的 “数据 集 ”。 然 而 ， 它 和 监督 式 学 习 中 使 用 的 数据 集 又 有 所 不 同 。 这 是 因为 ， 随 着 训 
练 的 进行 ， 它 也 会 随 之 更 新 。 回 放 记 忆 的 长 度 M (在 示例 代码 中 ， 默 认 情 况 下 ，M= 10 000 ) 是 
国定 的 。 当 将 一 组 新 数据 (w、aw、 六 友和 0D) 加 入 回放 记忆 的 尾部 时 ， 旧 的 头 部 数据 会 从 记忆 中 
移 除 。 这 样 ， 回 放 记 忆 的 长 度 就 可 以 保持 不 变 。 这 确保 了 回放 记忆 能 够 记录 训练 中 最 近 M 步 里 
产生 的 信息 ， 同 时 又 避免 了 内 存 不 够 的 问题 。 总 是 用 最 新 的 游戏 信息 训练 DQN 是 很 有 益 的 。 为 
何 这 么 说 呢 ? 想 想 看 ，DQN 经 过 充分 训练 后 ， 已 经 可 以 比较 熟练 地 玩 游 戏 了 ， 因 此 没有 必要 用 
旧 的 历史 信息 〈 比 如 刚 玩 游戏 时 积 斤 的 信息 ) 进行 训练 , 那些 信息 中 记录 的 移动 方法 当前 来 看 可 
能 过 于 简单， 甚至 上 毫 无 痊 处 。 
回放 记忆 的 代码 非常 简单 ,位 于 snake-dqn/replay_memory.js 文件 中 。 除 了 append() 方 法 和 
sample() ， 此 处 不 会 效 述 代码 中 的 其 他 细节 。 
口 append () 方 法 可 以 将 一 组 新 记录 添加 到 回放 记忆 的 末尾 。 
口 sample (batchsize) 会 随机 从 回放 记忆 抽取 batchsize 个 记录 。 这 些 记录 是 以 完全 均 
义 (uniform ) 的 方式 抽取 的 ， 并 且 一 般 而 言 会 来 目 多 个 不 同 的 回合 。 在 计算 损失 晒 数 和 
后 续 的 反问 传播 时 ，sample() 可 以 用 来 提取 训练 批 次 。 接 下 来 即将 展示 这 种 用 法 。 
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3. epsilon 贪心 算法 : 在 “探索 ”和 “利用 ” 间 取 得 平衡 

智能 体 在 随机 试 错 过 程 中 偶尔 会 因为 运气 好 而 试 出 一 些 非常 好 的 决策 ( 比如 使 贪 吃 蛇 在 某 回 
合 中 能 吃 到 一 两 个 水 末 的 决策 )。 这 对 于 快速 启动 智能 体 的 初期 学 习 过 程 非常 有 效 。 事 实 上 ， 这 
也 是 唯一 的 方法 , 因为 智能 体 一 开始 不 知道 任何 游戏 规则 。 但 是 如 果 证 智能 体 一 下 随机 地 进行 决 
彩 , 它 的 学 习 进 程 又 有 可 能 俘 沛 不 前 。 这 是 因为 随机 决策 可 能 会 导致 意外 有 死亡， 同时， 有 些 更 高 
级 的 游戏 状态 只 有 在 连续 做 出 正确 决策 的 前 提 下 才能 达成 。 

这 正 是 “探索 ”和 “利用 ”这 两 个 策略 之 间 的 矛盾 在 《 贪 吃 蛇 》 游 戏 中 的 体现 。 我 们 之 前 在 
平衡 倒立 摆 示 例 中 见 过 这 个 问题 。 之 前 的 示例 通过 策略 梯度 方法 解决 了 这 个 问题 。 当 时 依靠 的 是 ， 
随 者 训练 深入 ,tf .multinomial() 采 样 的 确定 性 会 逐渐 增加 这 一 特性 。 在 贪 吃 蛇 问 题 中 , 我们 
就 没有 这 人 么 第 运 了 了。 这 是 因为 行为 的 选择 不 再 是 基于 tf.multinomial()， 而 是 基于 CO 值 的 大 
小 (选择 最 大 的 )。 可 以 通过 参数 化 行为 选择 的 随机 程度 来 解决 这 个 问题 。 也 就 是 说 ， 在 训练 过 
程 中 ,逐渐 降低 随机 程度 的 参数 ,具体 而 言 ,我 们 会 使 用 一 个 名 为 epsilon 贪心 策略 ( epsilon-greedy 
policy ) 的 算法 ， 其 伪 代 码 如 下 。 

XxX = 在 0~~1 范围 内 以 均匀 的 方式 随机 采样 一 个 数字 

i 

0 = DQN .predict (观察 ) 

选择 最 大 Q 值 对 应 的 行为 

上 上述 逻辑 会 被 应 用 到 训练 的 每 一 步 上 。epsilon 的 值 越 大 ( 即 越 接 近 1 ), 行为 就 越 可 能 是 
随机 选择 的 。 反 之 ，epsilon 的 值 越 小 ( 即 越 接 近 于 0 ), 行为 就 越 可 能 是 通过 DQN 预测 CO 值 
选择 的 。 随 机 选择 行为 其 实 残 相当 于 在 探索 环境 (epsilon 的 大 小 对 应 于 探索 的 倾向 )， 而 选择 
能 最 大 化 O 值 的 行为 则 叫 作 贪心 ( greedy ) 现在 你 知道 为 何 这 个 算法 会 叫 作 epsilon 贪心 策略 了 。 

如 代码 清单 11-6 所 示 ， 实 现 《 贪 吃 蛇 》 游 戏 的 epsilon 贪心 策略 的 TensorFlow.js 代码 和 上 面 
的 伪 代 人 码 几 乎 是 一 一 对 应 的 。 这 部 分 代码 摘 目 snake-dqn/agent.js 文件 。 


代码 清单 11-6 ”epsilon 贪心 策略 在 《 贪 吃 蛇 》 游 戏 中 的 实现 


let action; 























const state = this.game.getState();} 
if (Math.random() < this.epsilon) { 探索 : 随机 
action = getRandomAction(); 选择 行为 
} else { 
| 
Const statelensor = el 
getStateTensor (state 将 游戏 状态 
" 表示 为 张 量 


this.game.height, 
this.game.width); 
action = ALL ACTIONSI 
this.onlineNetwork.predict ( 贪心 策略 : 从 DQN 获取 各 个 
stateTensor) .argMax(-1).datasync()[0d] ;行为 的 预测 Q 值 ， 然 后 选择 
) ) ; 最 大 Q 值 对 应 的 行为 
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epsilon 贪心 策略 平衡 了 训练 初期 对 探索 的 需求 , 以 及 后 期 对 稳定 决策 的 需求 。 这 是 通过 在 训 
练 中 ， 逐 渐 将 epsilon 从 相对 较 大 的 初始 信 降 低 为 接近 于 零 〈 但 不 完全 等 于 零 ) 的 值 做 到 的 。 
在 我 们 的 贪 吃 由 (对 应 代码 仓库 中 的 snake-dqn 项 目 ) 示例 中 ，epsilon 是 以 线性 的 方式 从 0.5 

未 淘 降 到 0.01 的 。 整 个 过 程 发 生 在 训练 早期 的 1 x 105 个 时 间 步 中 。 注 意 ， 此 处 没有 让 epsilon 
一 直 降 到 零 ， 因 为 即使 是 在 智能 体 训练 的 后 期 ， 模型 也 需要 一 定 程度 的 探索 ， 这 样 它 才 能 继续 发 
现 新 的 、 聪 明 的 决策 。 在 基于 epsilon 贪心 策略 的 RL 问题 中 ，epsilon 的 初始 值 和 终止 值 ， 以 
及 epsilon 的 下 降 过 程 都 是 可 调 的 超 参 数 。 

epsilon 贪心 策略 为 即将 采用 的 次 度 0 学 习 算 法 搭 好 了 舞台 , 接 下 来 看 看 训练 DQN 的 具体 过 程 。 


4. 提取 预测 的 Q 值 

尽管 此 处 采用 了 一 种 新 策略 来 解决 RL 问题 , 但 我 们 仍 想 尽 可 能 地 将 该 策略 放 到 监督 式 学 习 的 
框架 中 实现 , 因为 这 样 就 可 以 使 用 熟悉 的 反问 传播 算法 更 新 DQN 的 权重 。 整 个 流程 需要 3 个 要 素 。 

口 预测 O 值 。 

D “真实 QO 值 。 注意 此 处 的 “真实 ” 打 了 引号 ， 因 为 确实 没有 方法 获取 2 值 的 实际 值 。 

这 些 数值 仅仅 是 在 训练 算法 的 特定 阶段 ， 对 O(s, a) 做 出 的 最 佳 估计 。 因 此 ， 对 它 更 准确 
的 称呼 是 “目标 0O 值 ”。 

口 能 够 量化 预测 2 值 和 目标 2 值 间 差距 的 损失 函数 。 

本 节 中 将 讨论 如 何 从 回放 记忆 中 提取 出 预测 2 值 。 后 续 的 两 节 中 会 介绍 如 何 获取 目标 2 值 
和 损失 因数 。 凌 齐 这 3 个 要 素 后 ， 贪 吃 蛇 游 戏 的 RL 问题 就 成 了 简单 的 反问 传播 问题 。 

图 11-14 展示 了 在 DQN 训练 的 某 个 时 间 步 中 ， 如 何 从 回放 记忆 获取 预测 的 0 值 。 可 以 将 该 
图 和 代码 清单 11-7 中 的 代码 结合 起 来 看 ， 这 样 有 助 于 理解 。 
































回放 记忆 





ps ah 计 +M+1 
随机 采样 一 个 尺寸 为 N 的 批 次 选择 要 执行 的 行为 
() () () () O 


在 线 DQN 


时 


[N, 9, 9, 2] 





图 11-14 从 回放 记 忆 和 在 线 DQN 里 获取 预测 O 值 的 示意 图 。 这 是 DQN 训练 算法 的 监督 式 
学 习 部 分 的 两 个 输入 之 一 。 这 个 流程 的 输出 为 actionos， 即 DQN 预测 的 O 值 。 
它 和 targetQs 共同 组 成 了 MSE 损失 计算 的 两 个 参数 。targetos 的 有 关 计 算 过 
程 参 见 图 11-15 
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具体 而 言 ， 可 以 随机 从 回放 记忆 中 采样 batchsize (默认 条 件 下 ，N= 128 ) 个 记录 。 之 前 
提 过 ,回放 记忆 的 每 个 记录 由 5 个 要 系 组 成 。 就 预测 CO 值 而 言 ， 我 们 仅 需要 前 两 个 。 第 一 个 要 素 
由 个 观察 到 的 状态 组 成 。 它们 会 被 转换 为 一 个 张 量 。 在线 DQN 随后 会 处 理 这 个 观察 张 量 批 次 ， 
并 得 出 预测 的 0O 值 ( 即 示意 图 和 代码 中 的 qs ) 然而 ，Gs 不 仅 包 括 实际 选择 的 行为 的 2 值 ， 还 
包括 没有 选择 的 行为 的 0O 值 。 对 于 此 处 的 训练 过 程 而 言 ， 我们 可 以 忽略 没有 选择 的 行为 的 O 值 ， 
因为 没有 什么 方法 能 得 出 其 目标 2D 值 。 这 就 是 回放 记忆 的 第 二 个 要 素 的 用 处 所 在 。 

第 二 个 要 又 正 是 实际 选择 的 行为 。 这 些 行为 都 会 被 转换 为 张 量 表 示 《〈 即 示意 图 和 代码 中 的 
actionTensor )。actionTensor 随后 会 被 用 来 从 qs 中 选择 出 我 们 想 要 的 元 素 。 这 一 步 对 应 的 
是 示意 图 中 的 “选择 要 执行 的 行为 ”边框 宫 括 的 部 分 。 它 用 到 了 3 个 TensorFlow.js 函数 : 
tf.oneHot ()、mul() 和 sum() (参见 代码 清单 11-7 的 最 后 一 行 )。 这 比 单纯 地 切 分 张 量 要 复杂 
些 ， 因 为 不 同 的 时 间 步 可 以 选择 不 同 的 行为 。 代 人 码 清 单 11-7 摘自 snake-dqn/agent.js 中 的 
SnakeGameAgent .trainOnReplayBatch() 方法 并 有 所 人 简化 。 


代码 清单 11-7 ”从 回放 记忆 获取 预测 2 值 批 次 
以 batchsize 为 批 尺 寸 ， 






































从 回放 记忆 随机 获取 一 个 每 个 游戏 记录 的 第 一 个 元 素 是 智能 
游戏 记录 批 次 体 观 察 到 的 状态 〈 见 图 11-13 ) 。 
getStateTensor() 国 数 会 将 其 从 
const batch = this.replayMemory.sample (batchSize); JSON 对 象 转换 为 张 量 ( 见 图 11-11) 
const stateTensor = getStateTensor\ 
batch.map (example => examplel0]), < 二 一 一 一 一 一 一 一 一 
this.game.height, this.game.width);} 
const actionTensor = tf.tensorldl( 
batch.map (example => examplel1l]), 游戏 记录 的 第 二 个 元 素 
"nt32"): en 2 Sh 
const qs = this.onlineNetwork.apply ( 是 实际 选择 的 行为 。 Et 
stateTensor, {training: true}) 也 是 用 张 量 表示 的 
.mul (tf.oneHot (actionTensor, NUM ACTIONS)) .sum(-1); < 
apply() 方 法 和 predict () 方 法 类 使 用 tf.oneHot() 、mul() 和 sum() 等 
似 ， 但 此 处 明确 配置 了 training: 方法 过 滤 出 实际 选择 的 行为 的 Q 值 ， 排 
true 来 局 用 反 向 传播 算法 除 没 选择 的 行为 的 Q 值 





通过 这 些 运 算 , 可 以 得 到 一 个 叫 作 actionos 的 张 量 。 它 的 形状 是 IN] , 其 中 N 是 批 次 尺寸 。 
这 就 是 我 们 想 要 的 预测 O 值 ， 即 针对 在 状态 * 中 , 执行 行为 a 这 一 场景 预测 的 O(s, a)。 接 下 来 将 
介绍 如 何 获得 目标 0O 值 。 


5. 使 用 贝尔 曼 方 程 提 取 目 标 Q 值 

相 较 于 提取 预测 CO 值 ， 提 取 目 标 2 值 的 方法 要 稍微 复杂 些 。 这 正 是 贝尔 受 方程 的 理论 实际 
派 上 用 场 的 地 方 。 之 前 提 过 ， 贝 尔 曼 方程 用 两 大 和 要素 描述 了 一 对 状态 和 行为 的 2 值 : (1) 瞬时 奖 
励 ; (2) 由 下 个 时 间 步 的 状态 能 得 到 的 ( 折扣 化 后 的 ) 最 大 0 值 。 第 一 个 要 素 很 容易 获得 。 因 为 
它 就 是 回放 记忆 的 记录 中 的 第 三 个 元 系 。 它 对 应 图 11-15 中 的 rewardTensor 部 分 。 
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要 计算 上 述 的 第 二 个 要 系 ( 即 下 个 时 间 步 的 最 大 0 值 )， 害 要 先 得 到 下 个 时 间 步 观察 到 的 状 
态 。 革 和 运 的 是 , 这 正 是 回放 记忆 的 记录 中 第 五 个 元 素 。 先 获取 随机 采样 的 批 次 在 下 一 个 时 间 步 中 
的 状态 , 并 将 其 转换 成 张 量 。 然 后 , 将 其 输入 到 一 个 从 原 DQN 复制 出 的 目标 DQN ( target DQN ) 
中 ( 见 图 11-15 )。 由 此 ， 我 们 获得 了 下 个 状态 的 佑 计 0 值 。 有 了 这 些 之 后 ， 沿 着 最 后 一 个 维度 
(行为 维度 ) 调用 max () 函数 ,就 可 以 得 到 由 下 个 状态 能 获得 的 最 大 0O 值 (对 应 代码 清单 11-8 中 
的 nextMaxQTensor )。 根 据 贝 尔 曼 方程 ， 这 个 最 大 值 还 会 乘 上 一 个 折扣 因子 〈 对 应 网 11-15 中 
的 y 和 代码 清单 11-8 中 的 gamma )。 乘积 会 和 瞬时 奖励 加 总 ， 最终 得 出 目标 0O 值 (示意 图 和 代码 
中 的 targetQs )。 











目标 DQN 








nextstateTensor 也 
S, a i i it1 


5 人 和 
targetoQs | 
[N] 





贝尔 曼 方 程 


(> r +Y:max(next0), if !done 
() @ 三 | () 
( Ef done 


rewardTensor 


[N] 





图 11-15 从 回放 记忆 和 目标 DQN 获取 目标 0O 值 (targetos ) 的 示意 图 。 本 图 中 的 回放 记忆 部 
分 和 批 次 采样 部 分 和 图 11-14 相同 。 最 好 将 本 图 和 代码 清单 11-8 中 的 代码 结合 起 来 理 
解 。 这 是 DQN 训练 算法 的 监督 式 学 习 部 分 的 两 个 输入 中 的 第 二 个 。targetos 在 此 处 
扮演 的 角色 和 标签 ( 例如 MNIST 数字 识别 示例 中 的 数字 类 别 标签 和 耶 拿 气温 预测 示例 
中 的 未 来 气温 值 ) 在 前 儿 章 的 监督 式 学 习 问 题 中 扮演 的 角色 相当 。 贝 尔 曼 方程 是 计算 
targetQs 的 关键 。 通 过 与 目标 DQN 缮 合 ， 贝 尔 曼 方程 允许 我 们 通过 在 当前 时 间 步 的 
O 值 和 下 个 时 间 步 的 O 值 之 间 建 立 联系 ， 来 计算 targetos 值 


注意 只 有 在 本 时 间 步 不 是 游戏 回合 的 最 后 一 步 时 ( 即 本 步 不 会 导致 蛇 死 亡 )， 下 一 步 的 CO 值 Ui 
才 存 在 。 如 条 是 这 样 ， 贝 尔 受 方程 的 等 号 右边 部 分 仅 有 瞬时 奖励 项 。 如 图 11-15 所 示 。 这 对 
应 于 代码 清单 11-8 中 的 agoneMask 张 量 。 该 代码 清单 中 的 代码 摘 目 snake-dqn/agent.js 文件 中 的 
SnakeGameAgent .trainOnReplayBatch() 方法 ， 并 有 所 简化 。 
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代码 清单 11-8 ”从 回放 记忆 获取 目标 (“真实 ”) 2 值 批 次 


const rewardTensor = tf.tensorldl( 回放 记忆 记录 的 第 三 个 
batch.map (example => example[2])); 元 素 是 瞬时 奖励 
const nextStateTensor = 9etStateTenSor ( 


batch.map (example => exXample[4])， 


、 小 7 2 人 好 Ar 人 人 一 
this.game.height, this.game.width).; 回放 记忆 记录 的 第 五 个 元 素 





四 0 人 大 号 全 、 A ~、 
const nextMaxQTensor = 人 | 观察 到 的 状态 。 此 处 
this.targetNetwork.predict (nextStateTensor) 将 其 转换 为 张 量 表示 





.max(-1); 


const doneMask = tf.scalar(1).subl 、 大 , 下 十 一 
tf.tensorld(batch.map (example => examplel3])) i 0 
.asType('float32°')); 步 中 所 有 行为 的 Q 值 | 
Const targetQOs = 人 
rewardTensor.add (nextMaxOQOTensor.mul ( 加 对 于 会 导致 游戏 结束 的 回 
doneMask) .mul (gamma) ) ; 合 ，doneMask 的 值 为 0， 
使 用 max() 函数 获取 下 一 步 中 能 获 合 则 为 1 
得 的 最 大 奖励 ,这 对 应 的 是 贝尔 曼 方 用 贝尔 曼 方 程 计 算 
程 等 号 右边 的 部 分 目标 Q 值 











你 可 能 已 经 注意 到 ， 座 度 2 学 习 算 法 的 一 个 诀 穷 就 是 使 用 两 个 DQN: 在 线 DQN 和 目标 DQN。 
在 线 DQN 负责 计算 预测 的 CO 值 (参见 上 一 市 中 的 图 11-14 )。 当 epsilon 贪心 算法 决定 采取 贪心 
策略 〈 即 非 探索 策略 ) 时 , 也 会 使 用 在 线 DQN 选择 蛇 的 行为 。 这 就 是 它 叫 作 “ 在 线 网 络 ”( online 
network ) 的 原因 。 而 就 像 上 文 提 到 的 , DQN 仅 用 于 目标 2 值 的 计算 , 这 就 是 它 叫 作 “目标 DQN” 
( target DQN ) 的 原因 。 那 为 何 要 使 用 两 个 DQN， 而 不 是 一 个 呢 ? 这 是 为 了 打破 对 训练 有 害 的 反 
馈 循 环 (feedback loop )。 这 些 反馈 循环 会 使 训练 过 程 变 得 不 稳定 。 

在 线 DQN 和 目标 DQN 都 是 由 相同 的 createDeepQNetwork() 图 数 ( 见 代码 清单 11-5 ) 创 
建 的 。 这 两 个 深度 convnet 的 拓扑 结构 完全 相同 。 因 此 ， 它 们 的 神经 层 和 权重 也 完全 相同 。 在 线 
DQN 的 权重 值 会 周期 性 地 复制 到 目标 DQN 上 (在 默认 配置 下 ， 每 1000 个 时 间 步 会 复制 一 次 )。 
这 样 能 够 保持 目标 DQN 和 在 线 DQN 的 一 致 。 如 有 果 没 有 这 样 的 同步 机 制 ， 目 标 DQN 会 和 在 线 
DQN 脱 市 。 它 生成 的 对 贝尔 受 方 程 中 下 个 时 间 步 的 最 佳 0O 值 估计 也 会 失 准 ,从 而 影响 训练 进程 。 


6. 用 于 Q 值 预测 和 反问 传播 算法 的 损失 函数 

有 了 预测 0O 值 和 目标 2 值 后 , 就 可 以 用 熟悉 的 meanSsquaredError 损失 力 数 计算 两 者 的 差 
距 了 ( 见 图 11-16 )。 至 此 ， 我 们 已 经 成 功 地 将 DQN 的 训练 过 程 转换 为 回归 问题 ， 这 和 之 前 的 波 
士 顿 房价 预测 示例 和 耶 拿 气温 预测 示例 没有 太 大 区 别 。 由 meanSauareError 损失 因数 得 出 的 误 
差 信 号 会 驱动 网 络 中 的 反问 传播 。 反 癌 传 播 得 出 的 权重 更 新 随后 会 被 用 来 更 新 在 线 DQN。 

图 11-16 中 的 示意 图 包含 图 11-12 和 图 11-13 中 的 部 分 内 容 。 它 整合 了 这 些 内 容 ， 添 加 了 一 
组 新 边框 和 箭头 用 于 表示 meanSquaredError 损失 也 数 ， 以 及 它 驱 动 的 反问 传播 (参见 示意 图 
的 右 下 角 )。 这 样 ， 贪 吃 蛇 的 智能 体 训 练 采 用 的 深度 O 学 习 算 法 就 完整 了 。 

代码 清单 11-9 中 的 代码 和 图 11-16 中 的 示意 图 联系 非常 紧密 。 这 个 代码 片段 是 snakedqn/ 
agent.js 文件 中 snakeCameAgent 类 的 trainonReplayBatch() 方 法 。 它 在 RL 算法 中 扮演 着 
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关键 角色 。 该 方法 定义 了 计算 预测 a 日 标 0 值 间 的 meanSquaredError 损失 的 损失 畏 数 。 
它 随后 会 用 tf .variableGrads () 图 数 计算 Re 损失 关于 在 线 DQN 权重 的 梯 
度 (对 tE aecdablaeraas ae 见 B.4 市 )。 优化 需 会 利用 算出 
ee 对 过 上 百 万 次 迭代 后 , DQN 
就 可 以 足够 好 地 引导 蛇 做 出 决策 。 对 于 下 面 的 代码 清单 而 言 ， 人 负责 计 算 目 标 0 值 ( target0s) 

的 代码 部 分 已 经 在 代码 清单 11-8 中 展示 过 了 。 








目标 DQN 














nextStateTensor 3 nextQs 













贝尔 曼 方 程 


> r +Y: max(nextQ), if !done ft 
加 多 


done 


| 


meanSquaredError 


actionTensor 


Ws ss a i ee i i ed rid 


有 反 向 传播 


图 11-16 将 actionos 和 targetos 结合 起 来 ,计算 在 线 DQN 的 meanSquaredError 
损失 。 然 后 利用 反问 传播 更 新 DQN 的 权重 。 示 意图 的 绝 大 部 分 已 经 在 图 11-12 
和 图 11-13 中 展示 过 了 。 新 添加 的 部 分 是 meanSauareqError 损失 函数 和 基于 
它 的 反 疝 传播 。 它 们 位 于 示意 图 的 右 下 和 角 


代码 清单 11-9 ”DQN 训练 用 到 的 核心 函数 
trainOnReplayBatch (batchSize, gamma, optimizer) { 
const batch = 


this.replayMemory .sample (batchSize),; 从 回放 记忆 随机 获取 
i i Ss 
( 


stateTensor 了 下 


[IN, 9, 9, 21 





const lossFunction = () => tf.tidy(l( 一 个 样 例 批 次 
Const stateTensor = getStateTensor 
batch.map (example => examplel[0]), lossFunction 返回 一 
this .game.height， 将 用 于 反 向 传播 的 标量 
this.game.width); 
const actionTensor = tf.tensorldl( 
batch.map (example => example[1]), 'int32°'); 
const qs = this.onlineNetwork 








.apply (stateTensor, {training: true}) 
.mul (tf.oneHot (actionTensor, NUM ACTIONS)) .sum(-1); 


预测 的 
Q 值 


const rewardTensor = tf.tensorild(batch.map (example => examplel21]1)); 
const nextStateTensor = getStateTensor!l 
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batch.map (example => example[4]), 通过 贝尔 曼 方 程 
this Gane. Neloht, this game .miethn): 算出 的 目标 Q 值 


Const nextMaxOQOTensor = 
this.targetNetwork.predict (nextStateTensor) .max(-1);} 





const doneMask = tf.scalar(1).subl 

tf.tensorld(batch.map (example => examplel[3])).asType('float32')); 

Const targetQs = 
rewardTensor.adgd (nextMaxOTensor.mul (doneMask) .mul (gamma) ); 








return tf.losses.meanSgquaredError (targetQs, qs); 


}); 
用 MSE 计算 预测 Q 值 和 





const grads = tf.variableGrads ( 目标 Q 值 间 的 损失 
lossFunction, this.onlineNetwork.getWeights()).; 
optimizer.applyGradients (grads .grads);} 
tf.dispose (grads); 
} 优化 器 利用 梯度 更 计算 损失 函数 关于 在 线 
新 DQN 的 权重 DQN 权重 的 梯度 








以 上 就 是 深度 2 学 习 算 法 的 全 部 细节 。 可 以 用 以 下 命令 在 Nodejjs 环境 中 启动 基于 该 算法 的 
训练 流程 。 


yarn train --logDir /tmp/snake_logs 


如 果 你 有 局 用 了 CUDA 的 GPU， 可 以 通过 给 该 命令 加 上 --gpu 选项 来 加 速 训练 过 程 。 通 过 
启用 --1logDir 选项 , 上 述 命 令 会 在 训练 中 , 将 下 列 指标 记录 到 TensorBoard 的 日 志文 件 夹 : (1) 最 
近 100 场 游戏 囚 计 奖励 的 移动 平均 值 (cumulativeReward100 ); (2) 最 近 100 场 游戏 吃 到 的 水 
果 数 量 的 移动 平均 值 (eaten100 ); (3) 表示 探索 倾 回 的 参数 值 (epsilon ); (4) 用 每 秒 执行 多 
少 个 时 间 步 表示 的 训练 速率 (framesPerSeconad )。 用 下 列 命令 启动 TensorBoard 工具 后 ， 可 以 
在 浏览 硕 中 进入 它 的 界面 (默认 URL 为 http://localhost:6006 )， 查 看 上 述 日 志 。 


pip install tensorboard tensorboard --logdir /tmp/snake_ logs 


图 11-17 展示 了 训练 流程 生成 的 一 组 比较 有 代表 性 的 日 志 , 分 别 对 应 于 各 个 指标 的 变化 曲线 。 
cumulativeReward100 和 eaten100 有 曲线 都 有 一 定 的 波动 ， 这 在 RL 问题 的 训练 中 非常 常见 。 
经 过 数 小 时 的 训练 后 模型 的 cumulatijveReward100 指标 达到 了 峰值 70 ~ 80, eaten100 指 
标 达 到 了 峰值 12。 


CumulativeReward100 Eaten100 Epsilon framesPerSecond 

















50k 100k 150k 200k 250k 300k 50k 100k 150k 200k 250k 300k 50k 100k 150k 200k 250k 300k 50k 100k 150k 200k 250k300k 
(1) (2) G3) (4) 


图 11-17 在 协 s-node 环 境 中 训练 贪 吃 蛇 DQN 模 型 时 生成 的 日 志 示 例 , 图 中 的 4 个 子 图 列举 如 下 : 
( cumulativeReward100, 最 近 100 场 游戏 累计 奖励 的 移动 平均 值 ; (2) eaten100 ， 
最 近 100 场 游戏 吃 到 的 水 采 数 量 的 移动 平均 值 ; (3) epsilon， 通 过 它 可 以 看 出 epsilon 
贪心 策略 在 决策 倾 问 上 的 变化 ; (4) framesPerSecond， 训练 速率 指标 
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每 当 cumulativeReward100 值 打破 之 前 的 记录 时 ， 训 练 脚本 便 会 将 模型 保存 到 相对 路 
径 ./models/dqn 下 。 在 使 用 yarn watcn 命令 启动 Web 界面 时 ， 会 同时 加 载 保存 好 的 模型 。 界 面 
中 会 展示 DQN 在 回合 的 每 个 时 间 步 中 预测 的 O 值 ( 见 图 11-18 )。 在 训练 后 实际 用 模型 玩 贪 吃 蛇 
游戏 时 ， 训 | 练 时 使 用 的 epsilon 贪心 策略 会 被 蔡 换 成 总 是 采取 “贪心 策略 ”的 新 策略 。 换 言 之 ， 
模型 总 是 选择 0O 值 最 高 的 行为 作为 蛇 实 际 执行 的 行为 (例如 , 在 图 11-18 中 , 会 执行 33.9 对 应 的 
前 进行 为 )。 这 将 有 助 于 你 直观 理解 训练 好 的 DQN 会 如 何 玩 《 贪 吃 蛇 》 游 戏 。 

通过 观察 玩 《 贪 吃 蛇 》 游 戏 时 的 实际 表现 ,我 们 可 以 观察 到 一 些 有 趣 的 现象 。 首 先 ， 蛇 在 游 
戏 中 实际 吃 掉 的 水 果 数 的 均值 ( 约 为 18 ) 要 大 于 训练 日 志 中 记录 的 eaten100 曲线 的 峰值 ( 约 为 
12 )。 这 是 因为 实际 玩 游 戏 时 ， 模 型 舍弃 了 epsilon 贪心 策略 ， 也 就 是 不 再 采取 随机 行为 。 之 前 提 
到 过 , 在 DQN 的 训练 末期 ，epsilon 会 保持 在 一 个 非 浓 小 但 非 堆 的 值 ( 见 图 11-17 的 第 3 个 子 图 )。 
训练 中 采取 的 随机 行为 偶尔 会 导致 蛇 过 早死 亡 ， 这 是 探索 性 行为 的 代价 。 男 一 个 有 趣 的 现象 是 ， 
虫 探索 出 了 一 个 有 趣 的 策略 。 它 在 朝 水 果 进 发 前 ， 会 先前 往 界面 的 边缘 或 角落 ， 即 使 水 果 在 界面 
的 正中 央 。 这 个 策略 能 帮助 它 有 效 地 减少 撞 到 自己 身体 的 概率 , 尤其 是 当 它 身体 比较 长 时 ( 例如， 
达到 10~ 18 格 )。 这 是 个 不 错 的 策略 ， 但 并 不 完美 ， 因 为 它 还 有 改进 空间 。 例 如 ， 当 蛇 的 长 度 超 
过 20 时, 它 经 常会 把 自己 困 在 一 个 封闭 的 圈 里 。 这 就 是 我 们 的 模型 的 极限 了 。 如 果 要 改进 它 ， 就 
需要 改良 epsilon 贪心 策略 ,鼓励 蛇 在 身体 较 长 时 去 探索 出 一 些 更 好 的 新 策略 。 "在 当前 的 算法 中 ， 
当 蛇 达到 一 定 长 度 ， 并 需要 有 技巧 地 避 开 上 自己 的 身体 时 ， 探 索 上 的 缺乏 就 显现 出 来 了 。 


Reward=60.6; Fruits=9 
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图 11-18 ”游戏 中 ,训练 好 的 DQN 估计 的 0 值 。 图 中 用 不 同 深度 的 
颜色 在 游戏 界面 中 将 它们 标注 了 出 来 
至 此 , 对 RL 的 DQN 算法 的 介绍 就 结束 了 。 此 处 使 用 的 算法 是 以 2015 年 发 表 的 “Human-Level 
Control through Deep Reinforcement Learning” 一 文 ? 为 蓝本 设计 的 。 在 该 论文 中 ，DeepMind 的 研 
究 者 首次 将 深度 神经 网 络 和 RL 算法 相 结 合 , 使 机 右 能 够 玩 各 种 “和 雅 达 利 2600” 风 格 的 游戏 。 本 
草 中 展示 的 信 吃 蛇 DQN 解决 方案 是 DeepMind 所 提出 算法 的 简化 版 。 例如 , 我 们 的 DQN 仅 关 注 
从 当前 时 间 步 得 到 的 观察 ， 而 DeepMind 的 算法 则 会 结合 当前 的 观察 和 之 前 多 步 的 观察 ， 并 将 它 




















中 例如 GitHub 网 站 上 的 OpenAIExam2018。 
@) 参见 Volodymyr Mnih 等 人 的 文章 “Human-Level Control through Deep Reinforcement Learning”， 刊 载 于 Nature， 
2015 年 第 518 期 ， 第 529~533 页 。 
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们 输入 DQN 中 。 人 尽管 有 所 人 简化， 但 我 们 的 示例 仍 保 留 了 这 个 突破 性 技巧 的 精髓 。 具 体 而 言 ， 利 
用 深度 convnet， 根 据 观察 到 的 状态 售 计 行为 的 价值 ， 然 后 利用 MDP 和 贝尔 受 方程 训练 深度 
convnet。RL 领域 后 续 的 诸多 人 研究 成 末 ， 包 括 计算 机 棋 手 问 帅 围 棋 和 国际 和 象棋， 部 是 以 类 似 的 方 
法 结合 深度 神经 网 络 和 传统 的 非 深度 学习 RL 方法 做 到 的 。 


11.4 延展 阅读 


口 Richard S. Sutton 和 Andrew G. Barto 的 著作 《强化 学 习 (第 2 版 )》。 

口 伦敦 大 学 学 院 的 David Silver 编写 的 强化 学 习 课 党 笔记 “UCL Course on RL”。 

口 Alexander Zai 和 Brandon Brown 的 著作 Deep Reinforcement Learning in Action。 

口 Maxim Laplan 的 著作 Deep Reinforcement Learning Hands-On: Apply Modern RL Methods, 
with Deep OQ-networks, Value Iteration, Policy Gradients, TRPO, AlphaGo Zero, and More。 


11.5 ”练习 


(1) 平 衡 倒立 摆 示 例 中 采用 了 一 个 策略 网 络 ， 其 中 包含 一 个 由 ( 默认 的 ) 128 个 单元 组 成 的 隐 
藏 密集 层 。 单元 数 这 个 超 参数 对 基于 策略 梯度 的 训练 有 什么 影响 吗 ? 试 着 将 它 改 成 一 个 非常 小 的 
值 ， 比 如 4 或 8， 然 后 比较 由 此 得 到 的 学 习 曲 线 和 默认 单元 数 下 得 到 的 学 习 曲 线 (各 回合 持续 的 
时 间 步 数 和 迭代 次 数 的 关系 曲线 )。 从 对 比 结果 来 看 ， 模 型 的 容量 和 其 估计 最 佳 行为 的 能 力 间 有 
什么 关系 吗 ? 

(2) 本 章 提 过 使 用 机 融 学 习 方 法 解决 平衡 倒立 摆 这 类 问题 的 一 大 优势 就 是 能 尽 可 能 减少 人 力 
的 介入 。 具 体 而 言 ， 如 果 环 境 有 任何 预料 之 外 的 变化 ， 我 们 无 须 关 心 环 境 是 如 何 变 化 的 , 或 为 此 
修改 仿真 环境 的 方程 式 。 相 反 ， 我 们 可 以 让 智能 体 自主 地 重新 学 习 问 题 。 试 着 用 以 下 步骤 验证 上 
述说 法 。 首 先 ， 从 源 代 码 〈 而 非 远 程 网 站 ) 启动 平衡 倒立 摆 示 例 。 用 常规 方法 训练 一 个 可 用 的 平 
衡 倒 立 摆 策 略 网 络 。 其 次 ， 修 改 cart-pole/cart_ pole.js 文件 中 的 this .gravity 值 ( 例 如， 如 果 你 
想 模 拟 在 重力 更 大 的 地 外 行星 做 实验 的 场景 ， 可 以 将 其 改 成 12 )。 修 改 完 后 ， 再 次 启动 页 面 ， 加 
载 第 一 步 训练 好 的 策略 网 络 , 然后 测试 它 。 确 认 模 型 的 测试 结果 是 否 真 的 因为 重力 的 变化 而 变 坏 了 
很 多 。 最 后 , 再 多 训练 策略 网 络 几 个 回合 。 这 次 , 策略 网 络 的 表现 是 否 有 所 改进 (适应 了 新 环境 )? 

(3)( 本 问题 是 针对 MDP 和 贝尔 曼 方程 的 练习 。) 11.3.2 节 和 图 11-10 展示 的 MDP 示例 非常 
简单 。 由 于 状态 间 的 过 渡 和 相关 奖励 没有 随机 性 ， 其 输入 输出 是 确定 的 。 但 很 多 现实 问题 更 适合 
使 用 随机 MDP ( stochatic MDP )。 在 随机 MDP 中 ， 智 能 体 过 渡 到 的 状态 ， 以 及 执行 行为 后 获得 
的 相关 奖励 都 会 遵循 某 种 概率 分 布 。 如 图 11-19 所 示 ， 如 果 智 能 体 在 状态 % 执行 行为 mw ， 它 会 有 
50% 的 概率 进入 状态 s,，50% 的 概率 进入 状态 s3。 两 种 状态 过 渡 对 应 不 同 的 奖励 。 在 这 类 随机 
MDP 中 ， 智 能 体 必须 考虑 状态 过 渡 和 奖励 的 随机 性 ， 并 计算 预期 的 ( expected ) 未 来 奖励 。 预 期 
的 未 来 奖励 是 所 有 可 能 奖励 的 加 权 平 均值 , 其 中 权重 为 概率 值 ,你 能 否 利用 上 述 的 概率 方法 估计 ， 
在 状态 sj 下, qr 和 4a; 的 0O 值 ( 见 图 11-19)? 基于 算得 的 结果 ， 在 状态 si 下，al 和 a; 哪个 是 更 
有 价值 的 行为 ? 
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图 11-19 练习 (3) 第 一 部 分 的 MDP 不 意图 


接 下 来 看 一 个 稍微 复杂 些 的 随机 MDP, 这 个 MDP 不 止 有 一 个 时 间 步 ( 见 图 11-20 )。 在 这 个 
更 复杂 的 场景 中 , 你 需要 使 用 递归 式 的 贝尔 受 方 程 , 将 执行 完 第 一 个 行为 后 的 最 佳 未 来 奖励 也 纳 
入 2 值 的 计算 ， 而 这 些 外 来 的 奖励 本 吴 也 是 随机 的 。 注 意 ， 回 合 有 时 在 第 一 个 时 间 步 就 会 结束 ， 
有 时 则 会 持续 多 个 时 间 步 。 你 能 判断 在 状态 s; 下， 哪个 行为 更 好 吗 ? 对 于 本 问题 ， 可 以 使 用 0.9 
作为 奖励 的 折扣 因子 。 














图 11-20 ”练习 (3) 第 二 部 分 的 MDP 示意 图 





358 第 11 章 深度 强化 学 习 的 基本 原理 








(4) 在 贪 吃 蛇 DQN ( snake-dqn ) 示例 中 ， 我 们 使 用 epsilon 贪心 策略 算法 来 平衡 “探索 ”和 
“利用 ”的 程度 。 在 默认 配置 下 ，epsilon 会 从 初始 值 0.5 逐渐 下 降 到 0.01， 并 维持 在 这 个 水 平 。 
试看 将 epsilon 的 最 终 值 变 大 (比如 改 成 0.1 ) 或 变 小 ( 比如 改 成 0 )。 观 察 这 些 变 化 对 贪 上 吃 蛇 
智能 体 的 学 习 有 何 影 响 。 你 能 从 epsilon 的 作用 的 角度 来 解释 为 何 会 有 这 些 影响 吗 ? 








11.6 ”小结 


口 作为 机 硕 学 习 的 一 种 类 型 ，RL 的 本 质 是 一 种 学 习 如 何 做 出 最 优 决 策 的 方法 。 在 RL 问题 
中 ， 智 能 体会 学 习 如 何在 特定 环境 中 选择 应 该 执行 的 行为 ， 从 而 最 大 化 一 种 叫 作 累积 奖 
励 (cumulative reward ) 的 指标 。 

口 和 监督 式 学 习 不 同 ，RL 中 没有 有 标签 的 训练 集 。 相 反 ， 知 能 体 必 须 通 过 随机 地 签 试 不 同 
行为 ， 习 得 各 种 场景 下 的 正确 行为 是 什么 。 

口 本 童 探索 了 两 种 稼 见 的 RE 算法 : 基于 策略 的 方法 (对 应 平 衔 倒立 摆 示 例 ) 和 基于 0 值 的 
方法 ( 对 应 贪 吃 蛇 示 例 )。 

口 策略 ( policy ) 是 一 种 智能 体 根据 对 当前 状态 的 观察 进行 行为 决策 的 算法 。 可 以 用 神经 网 
络 对 策略 进行 封装 。 该 网 络 的 输入 是 观察 到 的 状态 ， 输 出 是 选择 的 行为 。 这 样 的 神经 网 
络 义 叫 作 策略 网 络 ( policy network )。 在 平衡 倒立 提示 例 中 ， 我 们 使 用 策略 梯度 和 
REINFORCE 方法 更 新 和 训练 了 一 个 策略 网 络 。 

口 和 基于 策略 的 方法 不 同 ，2 学 习 会 使 用 一 个 名 为 Q 网 络 ( O-network ) 的 模型 估计 观察 到 
的 特定 状态 下 ,各 行为 的 价值 。 贪 吃 蛇 示 例 中 展示 了 如 何 用 深度 convnet 创建 0 网络, 同 
时 还 展示 了 如 何 使 用 MDP 假设 、 贝 尔 曼 方程 ， 以 及 一 个 名 为 回放 记忆 (replay memory ) 
的 数据 结构 训练 2 网 络 。 
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总 结 与 结语 








本 书 的 最 后 一 部 分 由 两 草 组 成 。 第 12 章 解答 了 TensorFlow.js 用 户 部 署 模型 到 生产 环境 时 
的 一 些 顾虑 ; 探讨 了 一 些 关 于 部 署 的 最 佳 实践 ， 包 括 如 何 更 好 地 确认 模型 的 正确 性 从 而 获得 对 
模型 的 信心 ， 以 及 如 何 减 小 模型 的 体积 并 使 其 更 高 效 地 运行 ; 还 探讨 了 如 何 将 生成 的 模型 部 署 
到 TensorFlow.js 文 持 的 各 种 环境 中 。 第 13 和 草 是 对 全 书 的 总 结 ， 回 顾 了 关键 的 概念 、 工 作 流 程 
和 技巧 。 








模型 的 测试 、 /优化 和 部 署 





Yannick Assogba、Ping Yu 和 Nick Kreeger 参与 了 本 章 的 编写 。 


口 测试 和 监测 机 带 学 习 代 码 的 重要 性 ， 以 及 相关 的 实践 规范 。 

口 如 何 通过 优化 用 TensorFlow.js 训练 的 模型 或 转换 到 TensorFlow.js 的 模型 ， 加 速 模型 的 加 
载 和 推 呆 。 

口 如 何 将 TensorFlow.js 模型 部 署 到 不 同 的 平台 和 环境 ,包括 浏览 需 搬 件 、 移 动 端 应 用 程序 、 
时 面 问 应 用 程序 ， 其 至 是 单片机 。 





正如 第 1 半 中 所 说 的 , 机 可 学 习 和 传统 的 软件 工程 有 一 个 关键 区 别 ， 即 它 会 目 主 探索 任务 的 
规则 和 经 验 法 则 。 本 书 的 前 几 章 应 该 已 经 让 你 充分 地 领略 了 机 硕 学 习 的 这 一 特点 。 然 而 ， 机 柄 学 
习 模 型 仍 是 用 代码 编写 的 , 因此 它们 依旧 是 更 大 的 软件 系统 的 一 个 组 成 部 分 。 机 硕 学 习 从 业者 需 
要 采取 一 些 和 非 机 融 学 习 代 码 类 似 的 手段 ， 才 能 保证 机 需 学 习 模 型 可 靠 、 高 效 地 运行 。 

本 和 草 将 聚焦 于 如 何 将 TensorFlowjs 提供 的 机 各 学 习 能 力 实际 融入 你 的 软件 系统 ,12.1 广 将 探 
索 机 可 学习 代码 的 测试 和 监测 。 这 是 个 极其 重要 但 又 帝 被 忽略 的 话题 。12.2 市 将 展示 有 助 于 减 小 
训练 后 的 模型 太 寸 和 所 需 算 力 的 工具 和 技巧 , 从 而 加 速 模型 的 下 载 和 推断 。 这 对 于 客户 问 和 服务 
伪 问 的 模型 部 署 可 请 至 关 重 要 。12.3 闻 将 概 吃 TensorFlow.js 模型 支持 的 各 个 部 署 环 境 。 在 这 一 过 
程 中 ， 我 们 会 讨论 各 个 部 称 选 项 的 独特 优势 、 限 制 和 对 应 的 部 团委 上 略 。 

通过 学 习 本 章 的 内 容 , 你 会 熟悉 TensorFlow.js 创建 的 深度 学 习 模 型 在 测试 、 优 化 和 部 署 环 市 
的 最 佳 实践 。 
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至 此 , 我 们 已 经 讨论 过 如 何 设计 、 构 建 和 训练 机 带 学 习 模 型 。 接 下 来 会 探讨 一 些 部 车 已 训练 
模型 的 相关 话题 。 先 来 讨论 如 何 测试 机 副 学 习 代 人 码 和 相关 的 非 机 各 学 习 代 码 。 在 测试 模型 和 它 的 
训练 过 程 时 ,需要 应 对 一 些 关 键 挑战 , 包括 模型 的 尺寸、 训练 所 知 时 间 ， 以 及 训练 期 间 会 遇 到 的 
一 些 非 确 定性 表现 〈 例 如 随机 权重 初始 化 和 像 丢 径 法 这 样 具 有 随机 性 的 神经 网 络 运算 )。 在 将 独 
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立 的 模型 拓展 成 完备 的 应 用 程序 的 过 程 中 , 会 遇 到 各 式 各 样 的 问题 , 包括 训练 和 推断 代码 间 的 偏 
和 斜 和 深 移 、 模 型 版 本 控制 问题 ， 以 及 数据 的 变化 。 你 会 发 现 ， 只 有 将 测试 和 可 徘 的 监测 解决 方 采 
搭配 使 用 ， 才 能 达到 整个 机 带 学 习 系 统 层面 的 可 徘 性 和 稳健 性 。 

保证 模型 的 可 测试 性 的 一 个 关键 考量 是 “如 何 对 模型 实施 版 本 控制 "。 在 绝 大 部 分 场景 中 ， 
人 们 会 对 模型 进行 持续 的 调整 和 训练 ,直到 达到 满意 的 评 佑 准确 靳 ,并 无 须 更 多 调整 为 目 。 在 第 
规 的 软件 构建 流程 中 , 不 会 再 对 模型 进行 构建 和 训练 。 相 反 , 模型 的 拓扑 结构 和 训练 好 的 权重 会 
被 存 和 人 版 本 控制 系统 。 在 数据 层面 ， 这 些 信息 类 似 于 二 进 制 大 对 和 象 ( binary large object, BLOB )， 
而 不 是 文本 数据 或 代码 数据 。 改 变 模型 的 附属 代码 时 不 应 该 改变 模型 本 里 的 版 本 号 。 同 样 ， 重新 
训练 模型 和 将 其 存 入 代码 仓库 后 ， 也 不 应 该 改变 不 属于 模型 的 代码 。 

机 各 学 习 系 统 的 哪些 部 分 应 该 有 测试 履 兹 呢 ?” 在 我 们 看 来 , 管 案 应 该 是 “所 有 部 分 ”。 图 12-1 
详细 展示 了 各 个 震 要 测试 的 环节 。 对 于 一 个 盘 型 的 机 需 学 习 系统 而 言 ， 从 准备 原始 输入 数据 到 构 
建 可 部 署 的 训练 好 的 模型 的 整个 流程 ,会 由 多 个 关键 部 分 组 成 。 有 些 部 分 和 非 机 融 学 习 代 码 类 似 ， 
因此 可 以 用 传统 的 单元 测试 ( unit test ) 禾 兰 。 其 他 部 分 则 包含 一 些 机 融 学 习 独 有 的 特征 ， 因 此 
需要 采用 为 其 量 屿 定制 的 测试 和 监测 方法 。 无 论 如 何 , 要 牢记 一 点 : 永远 不 要 低估 测试 的 重要 性 ， 
即使 测试 对 象 是 机 融 学 习 系 统 也 是 如 此 。 事 实 上 ,我 们 认为 ， 编 写 机 种 学 习 系 统 的 单元 测试 ， 比 
编写 传统 软件 的 单元 测试 还 重要 。 这 是 因 为 ,一 般 而 言 ， 和 非 机 带 学 习 算 法 相 比 ， 机 带 学 习 算 法 
往往 更 不 透明 且 临 次 。 如 打 输 入 和 预期 不 同 , 它们 可 能 会 失败 但 不 报错 ， 从 而 导致 一 些 难 以 发 现 
和 调试 的 问题 。 应 对 这 类 问题 的 最 佳 方法 就 是 测试 和 监测 。 下 一 市 中 会 进一步 详解 图 12-1 的 各 


个 部 分 。 

















模型 代码 









训练 好 的 


= 


目 





数据 预 处 理 代码 i 1 
1 4 
传统 单元 测试 样 例 校 验 磺 “| | 传统 单元 测试 | | 传统 单元 测试 传统 单元 测试 
监测 模型 和 评估 妖 
体积 和 速度 





图 12-1 用 于 生产 环境 的 机 带 学 习 系 统 应 有 哪些 测试 和 监测 的 示意 图 。 本 图 的 上 半 部 
分 描绘 了 一 个 典型 的 机 带 学 习 模 型 的 创建 和 训练 流水 线 的 关键 部 分 ; 下 半 部 
分 展示 了 流水 线 的 各 个 部 分 应 该 使 用 什么 测试 方法 。 其 中 ， 有 些 部 分 适用 传 
统 的 单元 测试 方法 ， 例 如 创建 和 训练 模型 的 代码 ， 以 及 对 模型 的 输入 和 输出 
进行 预 处 理 和 后 期 处 理 的 代码 。 其 他 部 分 则 需要 为 机 融 学 习 量 号 定制 测试 和 
监测 方法 。 这 些 部 分 包括 保障 数据 质量 的 样 例 校 验 代 码 、 监 测 模型 训练 后 的 
体积 和 推断 速度 的 代码 ， 以 及 针对 模型 训练 后 的 预测 结果 的 细 粒 度 的 校 验 代 
码 和 评估 代码 
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12.1.1 传统 的 单元 测试 


和 非 机 妖 学 习 项 目 一 样 , 可靠 且 轻 量 的 单元 测试 应 该 是 整个 测试 策略 的 基石 。 然 而 ,在 为 机 
天 学 习 模 型 编写 单元 测试 时 ， 要 有 一 些 特殊 的 考量 。 正 如 前 儿 章 所 介绍 的 , 在 成 功 完成 超 参数 调 
优 和 模型 训练 后 , 一 般 会 使 用 准确 率 这 样 的 度量 指标 在 性 能 评 佑 专用 的 数据 集 上 量化 模型 的 最 终 
质量 。 对 于 人 类 工程 师 而 言 ， 这 类 评估 指标 对 于 监测 模型 的 性 能 非常 重要 , 但 它们 不 适用 于 目 动 
化 测试 。 你 可 能 会 想 ， 其 实 可 以 添加 一 个 测试 ， 汤 言 菏 些 评 佑 指标 的 值 必须 高 于 特定 的 国 值 ( 例 
如 , 某 个 二 分 类 任务 的 AUC 高 于 0.95, 或 者 回归 任务 的 MSE 低 于 0.2 )。 然 而 ， 必 须 谨慎 使 用 这 
类 基于 国 值 的 断言 ， 甚 至 应 该 完全 避免 使 用 它们 ,因为 它们 非常 不 擅长 应 对 变化 。 模 型 的 训练 过 
程 充满 各 种 随机 性 ， 比 如 权重 初始 化 的 随机 性 和 训练 样 例 的 乱 序 。 这 会 导致 模型 每 次 的 训练 结果 
都 会 稍 有 不 同 。 如 末 数 据 集 本 里 会 变 ( 例如， 周期 性 地 加 入 新 数据 )， 那 结 采 的 变化 就 不 可 控 了 。 
因此 ,设置 病 值 是 非常 困难 的 。 如 采 把 国 值 设 得 太 小 、 太 宽松 ， 就 无 法 保证 捕捉 到 真正 的 问题 。 
如 宁国 值 设 得 大 严格 ， 测 试 结果 就 会 是 波动 的 ， 即 使 没 真 的 出 问题 ， 也 会 经 浓 报 错 。 

在 创建 和 运行 模型 前 ,一 般 可 以 通过 调用 Math.seedqrandqdom( ) 国 数 禁用 TensorFlow.js 程序 
的 随机 性 。 例 如 ， 下 面 的 这 行 代码 会 为 权重 初始 化 、 样 例 的 排序 和 dropout 层 设置 一 个 固定 的 随 
机 种 子 ， 这 样 后 续 的 模型 训练 结果 就 会 是 确定 的 。 


Math. eeedrandom(d2). 142 是 一 个 任意 选择 的 、 固 定 的 随机 种 子 


这 个 技巧 对 于 编写 需要 汤 言 损失 或 度量 指标 的 测试 非常 好 用 。 

然而 ， 尽 管 可 以 通过 这 种 手段 保证 结果 的 确定 性 ， 但 是 仪 测试 model .fit () 或 类 似 的 API 
调用 是 不 够 的 。 因 为 这 还 是 不 足以 保证 对 机 各 学 习 代 码 的 良好 测试 履 盖 。 就 和 其 他 难以 为 其 编写 
单元 测试 的 代码 一 样 , 我 们 的 目标 应 该 是 尽 可 能 完整 地 测试 多 于 编写 单元 测试 的 外 围 代 码 , 同时 
为 模型 部 分 寻找 淤 在 的 解决 方案 。 所 有 和 数据 加 载 、 数 据 预 处 理 、 模 型 输出 后 期 处 理 相关 的 代 但 ， 
以 及 其 他 工具 类 代码 都 适用 传统 的 测试 方法 。 此 外 ,还 可 以 对 模型 本 对 进行 一 些 不 那么 严格 的 测 
试 ， 从 而 最 低 限度 地 保障 重 构 模 型 时 的 信心 。 例 如 ， 可 以 测试 模型 的 输入 形状 和 输出 形状 ， 还 可 
以 编写 一 些 类 似 于 “确保 模型 执行 一 个 训练 步骤 时 不 会 报错 ”的 测试 。( 你 可 能 已 经 在 试验 前 几 
草 的 示例 时 发 现 ， 我 们 为 苏 s-examples 代码 仓库 选用 的 测试 框架 是 Jasmine。 你 也 可 以 选择 任何 
其 他 单元 测试 框架 和 执行 工具 。 ) 

如 果 你 需要 一 个 实际 示例 , 可 以 参照 第 9 章 介 绍 的 情感 分 析 示 例 的 测试 。 该 示例 有 个 测试 文 
件 ， 包 括 data testjs、embedding test.js、sequence utils test.js 和 train testjs。 前 3 个 文件 针对 的 
是 模型 的 外 围 代 码 , 它们 和 一 般 的 单元 测试 别 无 二 致 。 它 们 可 以 增强 我 们 对 模型 正确 运行 的 信心 。 
比如 ,它们 可 以 确保 训练 和 推断 时 ,模型 的 输入 数据 格式 符合 预期 ,同时 还 可 以 确保 我 们 对 这 些 
数据 的 处 理 是 正确 的 。 

上 述 文件 中 的 最 后 一 个 和 机 硕 学 习 模 型 本 身 有 关 ， 因 此 值得 更 深入 地 讨论 。 代 但 清单 12-1 
是 从 该 文件 广 选 的 一 部 分 代码 。 
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代码 清单 12-1 针对 模型 API 的 单元 测试 (测试 目标 包括 输入 形状 和 输出 形状 ， 以 及 模型 的 可 
训练 性 ) 


describe('buildModel', () => { 
it('flatten training and inference', async () => { 断言 模型 的 输入 形状 和 
pe 输出 形状 符合 预期 
const vocabSize = 3; 
const embeddingSize = 8; 
Const model = buildModel('flatten', maxLen, vocabSize, embeddingSize); 


expect (model.inputs.length) .toEqual (1); 

expect (model.inputs[0] .shape) .toEqual ([null, maxLen]).; 
expect (model .outputs.length) .toEqual ( 工 ) ; 

expect (model .outputs[0] .shape) .toEqual([null, 1]); 
model.compilel(t 

















loss: 'binaryCrossentropy', 
optimizer: 'rmsprop', 
metrics: ['acc'] 
Li 
const xs = tf.ones([2, maxLen]) 
const ys = tf.ones([2, 1|]); 
确保 记录 下 每 const history = await model.fit (xs, ys, { 对 模型 进行 短暂 的 
个 训练 步骤 的 0 训练 。 训练 耗 时 非常 
指标 数据 ， 从 短 ， 但 并 不 精确 
而 印证 训练 确 | 7 
实 发 生 了 expect (history.history.loss.length) .toEdual (2 ) ; < 一 一 


expect (history.history.acc.length) .toEdual (2) ; 




















Const predictOuts = model.predict (xs); 
expect (predictOuts.shape) .toEqual([2, 1]); 
Const values = predictOuts.arraySync ( ) ; 
expect (values[0][0]) .toBeGreaterThanOrEgqual (0) ; 
expect (values[0]110]) .toBeLessThanOrEqual ( 工 ) ; 
expect (values[1][0]) .toBeGreaterThanOrEqual (0 ) ; 
expect (values[1]1[0]) .toBeLessThanOrEqual ( 工 ) ; 
> 确保 预测 结果 没有 超出 允许 的 
FY 答案 范围 。 不 必 检 查实 际 的 预 
调用 模型 进行 一 次 预测 ， 测 值 ， 因 为 训练 过 程 过 短 ， 并 
确保 API 符合 预期 且 可 能 很 不 稳定 


上 面 的 测试 代码 包含 很 多 内 容 , 下 面 来 逐一 地 讲解 它们 。 首先 , 我 们 用 辅助 耳 数 (buildMoael ) 
构建 了 一 个 模型 。 对 于 这 个 测试 而 言 ， 我 们 并 不 关心 模型 的 结构 ， 因 此 可 以 将 其 视 作 一 个 黑箱 。 
下 面 的 代码 是 对 模型 的 输入 形状 和 输出 形状 的 断言 

expect (model .inputs.length) .toEqual(1 
null, maxLen|); 


( ); 

( ([ 
expect (model .outputs.length) .toEqual ( 工 ) ; 
expect (model .outputs[0] .shape) .toEqual([null, 1]);} 


这 类 测试 可 以 帮助 我 们 捕捉 一 系列 问题 ， 包 掺 并 i 只 定 义 批 次 维度 、 混 清 回 归 问 题 和 分 类 问题 、 
得 到 的 输出 形状 有 误 等 。 接 下 来 ， ee 行 了 短暂 的 训练 。 这 仅仅 是 为 了 确保 模型 的 可 训 
杀 性 因此 暂时 不 必 担 心 其 准确 从、 i 了 收敛 。 


expect (modqelL .1Inputs[0] .shape) .toEdual 














const history = await model.fit(xs, ys, {epochs: 2, batchSize: 2}) 
expect (history.history.loss.length) .toEgqual (2);， 
expect (history.history.acc.length) .toRgqual (2); 


上 面 的 这 段 代 码 还 会 检查 训练 过 程 中 是 否 记 录 下 分 析 所 需 的 指标 数据 。 换 
我 们 真 的 训练 模型 时 , 可 以 监测 训练 过 程 和 由 此 创建 的 模型 的 准确 率 。 最 后 是 








言 之 , 它 能 确保 当 
下 面 这 段 简单 的 测 











const predictOuts = model.predict (xs); 

expect (predictOuts.shape) .toEgqual([2, 1]1); 
const values = predictOuts.arraySync (); 

expect (values[0]110]) .toBeGreaterThanOrEqual (0); 
expect (values[0]110]) .toBeLessThanOrEqual ( 工 ) ; 
expect (values[1]1[0]) .toBeGreaterThanOrEqual (0) ，; 
expect (values[1]1[10]) .toBeLessThanOrEqual ( 工 ) ; 














此 处 ,我 们 并 不 是 在 检查 某 个 预测 结 末 。 这 是 因为 预测 结 来 会 随 着 权重 的 随机 初始 化 ， 以 及 
未 来 对 模型 染 构 的 调整 而 改变 。 该 测试 的 日 的 是 , 确 你 模型 确实 生成 了 预测 结 来 , 并 且 预 测 在 预 
期 范围 内 。 对 于 上 面 的 示例 而 言 ， 结 采 必 须 在 0 ~ 1 范围 内 。 

此 处 需要 注意 的 最 天 键 的 一 点 是 , 无 论 如何 改 变 模 型 的 架构 ,只 要 不 改变 它 的 输入 API 和 输 
出 API， 上 述 的 测试 都 应 该 通过 。 如 时 测试 失败 了 ， 则 说 明 模 型 本 身 有 问题 。 这 些 测试 可 以 写 得 
非常 轻 量 , 运行 起 来 也 非常 快 。 它 们 能 够 很 好 地 确保 API 的 正确 性 ， 因此 可 以 将 其 加 入 任何 常用 
的 测试 太 点 中 。 


12.1.2 ”基于 黄金 值 的 测试 


在 上 一 节 中 , 我 们 探讨 了 在 不 为 性 能 指标 断言 阔 值 或 走 完整 个 训练 流程 的 前 提 下 ,如 何 对 模 
型 的 外 围 代码 进行 有 效 的 单元 测试 。 接 下 来 进一步 介绍 如 何 测试 经 过 充分 训练 的 模型 。 先 从 如 何 
售 查 模型 针对 特定 数据 点 的 预测 结果 开始 。 对 于 不 同 的 场景 ， 你 可 能 会 想到 一 些 “ 明 显 ”应 该 测 
试 的 样 例 。 例 如 , 对 于 目标 检测 模型 , 它 应 该 检测 出 图 片 中 可 爱 又 大 个 的 猫 ; 对 于 情感 分 析 模 型 ， 
它 应 该 分 析出 看 起 来 明显 是 负面 的 影评 。 这 类 针对 模型 特定 输入 的 正确 答案 通常 叫 作 黄金 值 
( golden value ),。 如 果 盲目 地 套用 传统 单元 测试 的 思维 模式 , 就 很 容易 犯 下 用 这 些 黄金 值 测试 训练 
好 的 机 器 学 习 模 型 的 错误 。 一 个 训练 有 素 的 目标 检测 模型 ， 应 该 总 能 正确 地 标注 出 图 像 中 的 猎 
吧 ? 非 也 。 基 于 黄金 值 的 测试 在 机 器 学 习 框架 下 不 一 定 是 有 益 的 , 因为 这 背叛 了 我 们 划分 训练 集 、 
验证 集 和 测试 集 的 初衷 。 

假设 你 选择 的 验证 集 和 测试 集 是 有 代表 性 的 , 并且 设置 了 一 个 合理 的 度量 指标 ( 准确 率 、 召 
回 率 等 ) 作为 目标 。 为 何 针对 某 个 特定 样 例 的 预测 正确 性 会 比 其 他 样 例 更 重要 呢 ? 机 器 学 习 模型 
的 训练 关注 的 是 整个 验证 集 和 测试 集 上 的 准确 率 。 根据 所 选 的 超 参数 和 初始 的 权重 值 , 针对 单个 
样 例 的 预测 结果 会 有 所 不 同 。 如 果真 的 很 容易 定位 一 部 分 样 例 , 并 且 对 这 部 分 样 例 的 预测 准确 率 
要 求 很 高 , 为 何不 先 找 出 它们 ,然后 直接 用 非 机 器 学 习 代码 处 理 它们 呢 ? 这 样 做 就 根本 用 不 上 机 
器 学 习 模型 。 在 自然 语言 处 理 系统 中 ， 就 偶尔 能 见 到 这 类 例子 。 在 这 些 系统 中 ,一 部 分 ( 比如 党 
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见 且 易 识 别 的 ) 输入 数据 会 被 目 动 导 癌 韭 机 楷 学 习 模 块 进行 处 理 , 镜 下 的 数据 则 会 由 机 楷 学 习 模 
型 处 理 。 这 样 不 仅 能 节省 计算 时 间 ， 同 时 这 部 分 代码 也 更 容易 用 传统 的 单元 测试 方法 来 测试 。 尽 
管 在 机 融 学 习 处 理 前 后 引入 这 些 额 外 的 业务 逻辑 可 能 看 起 来 有 些 多 余 , 但 它们 使 我 们 可 以 履 写 机 
融和 学习 的 预测 结果 。 同 时 ， 你 还 可 以 在 其 中 加 入 监测 和 日 志 人 代码。 这 在 你 的 产品 变 得 更 为 流行 时 
会 非常 有 益 。 有 了 这 些 铺 热 后 ， 接 下 来 逐个 探讨 人 们 对 黄金 值 的 3 个 浓 见 期 望 。 

用 黄金 值 测试 模型 的 一 个 第 见 动机 是 为 了 进行 并 到 六 测试 (end-to-end test )， 即 回答 “对 于 
给 定 的 输入 ， 系 统 的 输出 是 什么 ”这 个 问题 。 在 实践 中 会 先 训练 机 需 学 习 模 型 ， 然 后 通过 终端 用 
户 的 常规 使 用 流程 获取 模型 的 预测 结果 ， 最 后 将 该 结果 返回 给 用 户 。 这 和 我 们 在 代码 清单 12-1 
中 元 过 的 单元 测试 类 似 ， 但 机 大 学 习 系 统 不 仅 和 模型 有 关 ， 还 和 整个 应 用 程序 的 其 他 部 分 有 关 。 
事实 上 可 以 写 一 个 和 代码 清单 12-1 类 似 ， 但 不 考虑 实际 预测 结果 的 测试 。 其 实 这 样 的 测试 更 为 
稳定 。 然 而 ,开发 者 总 是 倾 问 于 将 这 样 的 测试 和 一 个 样 例 与 预测 的 组 合 搭配 在 一 起 。 同 时 ， 开 发 
者 还 会 确保 这 样 的 样 例 与 预测 组 合 是 合理 的 ， 且 有 助 于 下 次 回顾 时 理解 。 

而 这 恰恰 就 是 问题 的 来 源 ,因为 做 到 这 一 点 的 前 提 是 , 事先 明确 知道 模型 对 特定 样 例 的 预测 
结 采 ,并 且 能 确保 该 结 采 是 对 的 。 一 旦 不 符合 这 一 条 件 ， 这 个 端 到 端 测试 就 会 失败 。 因 此 ,我 们 
引入 了 一 个 小 型 测试 , 它 会 测试 端 到 端 测试 覆盖 的 流水 线 的 子 集 。 这 样 ， 在 问 到 闪 测 试 失败 但 小 
规模 测试 成 功 的 场景 中 , 就 可 以 将 错误 定位 到 核心 机 融 学 习 模 型 与 流水 线 其 他 部 分 的 交互 上 (〈 例 
如 数据 的 获取 或 后 期 处 理 )。 如 果 两 种 测试 同时 失败 ， 那 么 就 可 以 肯定 ， 原 本 牢 不 可 人 破 的 样 例 和 
预测 组 合 被 打破 了 。 在 这 种 场景 中 ， 这 些 测试 更 像 是 诊断 问题 的 工具 。 但 这 种 情况 发 生 时 , 一般 
不 会 从 头 开 始 训练 模型 ， 而 是 会 再 选择 一 个 新 样 例 进行 预测 。 

另 一 个 稼 见 的 黄金 值 测试 的 来 源 是 业务 需求 。 这 是 因为 对 部 分 已 知 样 例 的 预测 准确 率 的 要 求 
比 其 他 样 例 高 。 正 如 之 前 所 提 到 的 ,在 这 种 场景 中 , 极其 适合 在 模型 处 理 的 前 后 谎 加 一 些 业 务 逻 
辑 层 来 专门 处 理 这 部 分 样 例 的 预测 。 然 而 ， 你 也 可 以 尝试 使 用 样 例 加 权 ( example weighting ) 方 
法 。 也 就 是 说 ,在 计算 模型 的 整体 质量 指标 时 ,赋予 一 部 分 样 例 更 大 的 权重 。 这 样 并 不 能 保证 模 
型 的 预测 结果 一 定 正确 , 但 会 驱使 模型 尽 可 能 保证 对 这 部 分 样 例 的 预测 的 正确 性 。 如 果 很 难 实现 
这 样 的 业务 逻辑 层 , 或 者 无 法 预先 识别 出 触发 这 些 特殊 场景 的 输入 特征 , 那 就 可 能 需要 采用 一 个 
额外 的 模型 。 这 个 模型 纯粹 是 用 于 确定 是 否 应 该 禾 与 为 一 个 模型 的 结果 。 在 这 种 情况 下 ， 预 测 结 
有 果 是 各 个 模型 预测 结果 的 集成 ( ensemble )。 换 言 之 ， 业 务 人 逻辑 的 页 任 是 综合 来 目 两 个 输出 层 的 
预测 结果 ， 从 而 做 出 正确 的 决断 。 

最 后 一 种 倾 问 于 使 用 黄金 值 测试 的 场景 是 ， 当 收 到 一 个 程序 bug 报告 时 ， 用户 在 报告 中 指出 
了 导致 错误 预测 结果 的 输入 样 例 。 如 果 可 以 将 预测 结果 的 错误 划 入 关键 业务 逻辑 上 的 错误 , 那 就 
又 回 到 了 前 一 种 场景 。 如 末 它 出 错 是 因为 模型 本 身 有 一 定 概 率 出 现 这 类 错误 , 那 就 不 必 做 什么 特 
丈 处 理 , 因为 这 在 训练 得 到 的 模型 的 可 接受 性 能 范围 内 ， 毕 竟 没 有 模型 是 完美 的 。 此 处 可 以 将 报 
告 的 样 例 和 它 所 对 应 的 正确 预测 结果 加 入 训练 、 测 试 或 评估 数据 集中 ,从 而 在 未 来 的 训练 中 生成 

些 更 好 的 模型 ， 但 不 应 该 将 这 些 黄 金 值 用 于 单元 测试 。 

尽管 如 此 , 但 是 仍 有 一 个 特殊 场景 应 该 使 用 黄金 值 测试 ， 即 能 保持 模型 不 变 的 场景 。 具 体 而 

言 , 模型 的 权重 和 架构 被 保存 在 版 本 控制 系统 中 , 并 且 在 测试 中 无 顷 重 新 生成 它们 。 这 种 情况 下 ， 
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可 以 利用 黄金 值 测试 以 该 模型 为 核心 的 推断 系统 。 这 是 因 为 模型 或 样 例 都 是 固定 的 。 这 样 的 推 斯 
系统 还 会 包含 一 些 模型 之 外 的 部 分 , 例如 对 重型 输入 的 预 处 理 部 分 ,以 及 将 模型 输出 转换 成 适合 
下 游 系统 使 用 的 数据 格式 的 部 分 。 黄 金 值 测试 可 以 保障 这 些 预 处 理 和 后 期 处 理 逻 辑 的 正确 性 。 

另 一 种 黄金 值 的 合理 用 途 和 单元 测试 无 关 。 它 主要 聚焦 于 (使 用 非 单 元 测试 方法 的 ) 监测 模 
型 在 不 断 演进 中 的 质量 变化 。 下 一 节 中 讨论 模型 的 校 验 般 和 评 佑 般 时 会 详解 这 点 。 


12.1.3 ”天 于 持续 训练 的 一 些 思 


很 多 机 带 尝 习 系 统 会 周期 性 地 (每 周 或 每 天 ) 获得 新 训练 集 。 比 如 ， 可 以 用 前 一 天 的 日 志 数 
据 生 成 新 的 、 更 能 反映 现状 的 训练 集 。 这 类 系统 往往 需要 频 壹 地 训练 模型 ， 并 总 是 采用 最 新 的 数 
据 。 在 这 些 场景 中 ,模型 如 末 过 旧 ， 或 者 保持 一 成 不 变 ， 会 影 啊 其 威力 。 随 肴 时 间 的 流逝 ， 模 型 
的 输入 会 新 新 深 移 到 和 最 初 训练 时 不 同 的 分 布 。 这 样 ， 模 型 的 性 能 指标 就 会 逐渐 变 差 。 例 如 ， 假 
设 有 一 个 用 冬天 的 数据 训练 的 服装 推荐 模型 ， 该 模型 在 夏天 一 定 很 难 做 出 有 效 的 预测 。 

在 这 个 基本 指导 思想 下 , 在 探索 需要 持续 训练 的 系统 时 , 你 会 发 现 它 们 的 流水 线 包 含 一 系列 
的 额外 模块 。 虽 然 这 部 分 内 容 不 在 本 书 的 讨论 畴 内 ,但 你 可 以 从 TensorFlow Extended ( TFX ) 
平台 汲取 一 些 灵 感 。” 从 测试 角度 而 言 , 这些 流 水 线 中 最 值得 关注 的 部 分 是 样 例 校 验 器 ( example 
validator )、 模 型 校 验 器 ( model validator ) 和 模型 评估 器 ( model evaluator )。 图 12-1 中 的 示意 图 
展示 了 这 些 部 分 。 

样 例 校 验 名 的 职责 是 测试 数据 , 这 也 是 机 各 学 习 系 统 中 非常 容易 忽视 的 一 个 测试 环 广 。 机 各 
学 习 从 业者 间 有 一 个 广 为 流传 的 名 言 :“ 吃 进 的 是 垃圾 ,吐出 的 就 是 垃圾 。” 输 入 数据 的 质量 就 是 
机 融 尝 习 模 型 的 质量 瓶颈 。 如 采样 例 的 特征 值 或 标签 值 有 误 , 则 很 可 能 会 损害 模型 部 署 后 的 准确 
率 ( 如 果 檬 型 的 训练 任务 没有 因此 提前 失败 的 话 )。 样 例 校 验 妖 的 作用 是 确保 檬 型 训练 和 评估 流 
程 的 输入 数据 总 是 能 达到 一 定 的 标准 : 数据 量 充 足 、 分 布 合理 ， 而 且 没 有 什么 奇怪 的 离 群 值 。 例 
如 ， 假 设 有 一 组 医疗 数据 ， 那 么 身高 数据 就 必须 是 不 大 于 280(〈 厘 米 ) 的 正 数 ， 病 人 的 年 龄 必须 
是 0~130( 岁 ) 范围 内 的 正 数 ,口腔 体温 数据 必须 是 30 ~ 45 (摄氏 度 ) 范围 内 的 正 数 等 。 如 果 
某 些 数据 不 在 这 些 范 围 内 ,或 者 用 None 或 NaN 这 些 特殊 的 占 位 符 做 了 标记 , 那么 我 们 就 知道 这 
些 样 例 存 在 异 负 ,并且 应 该 对 这 些 数据 做 相应 的 处 理 。 绝 大 部 分 情况 下 , 应 该 将 它们 从 训练 集 和 
评 佑 集中 删除 。 

一 般 而 言 ， 预 测 误差 意味 着 数据 收集 过 程 中 出 了 问题 ， 或 者 推 汤 环境 发 生 了 改变 , 并 和 构建 
系统 时 做 出 的 假设 已 经 不 匹配 了 。 它 更 类 似 于 监测 和 错误 警告 , 而 不 是 集成 测试 ( integration test )。 
像样 例 校 验 融 这 样 的 组 件 还 有 助 于 检测 训练 和 推断 间 的 偶 斜 。 这 类 问题 在 机 天 学 习 系 统 中 非常 环 
手 。 产生 侦 和 糙 的 两 个 主要 原因 : 训练 和 推断 用 的 数据 属于 不 同 分 布 ; 训练 和 推 基 的 数据 预 处 理 逻 
辑 有 差异 。 如 果 将 样 例 校 验 带 同时 部 署 到 训练 和 推 半 环境 , 那么 它 有 可 能 帮助 发 现任 何 一 个 环境 
中 出 现 的 俩 斜 和 逻辑 差异 。 

































































GD 参见 Denis Baylor 等 人 发 表 在 KDD 2017 网 站 上 的 文章 “TFX 一 A TensorFlow-Based Production-Scale Machine 


Learning Platform  。 
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模型 校 验 带 扮演 的 角色 就 和 模型 的 创建 者 一 样 ， 可 以 判断 模型 是 否 “ 够 格 ” 真 正 投入 使 用 。 
你 可 以 用 你 所 关心 的 度量 指标 配置 它 ， 然 后 校 验 融 会 负责 决定 模型 是 否 通过 。 就 像样 例 校 验 表 一 
样 ， 这 种 互动 方式 更 像 一 种 检测 和 报警 机 制 。 一 般 而 言 ， 还 可 以 将 性 能 指标 〈 例如 准确 率 ) 随时 
间 的 变化 趋 抒 用 日 志和 图 表 的 形式 记录 下 来 。 之 后 可 以 通过 这 些 数 据 判断 模型 是 否 有 小 规模 的 、 
系统 性 的 可 减 。 尽 管 这 本 刁 不 会 触发 什么 什么 错误 警报 , 但 对 于 判断 模型 质量 的 长 期 变化 趋势 以 
及 诊断 浴 在 的 故 隐 还 是 非常 有 益 的 。 

模型 评估 人 右 会 更 深入 地 挖掘 模型 的 质量 数据 。 它 会 以 用 户 定 义 的 不 同 维度 , 对 模型 的 质量 抽 
缘 剥 且 。 比 如 ， 它 经 第 被 用 来 检测 模型 对 于 不 同人 群 ( 按照 年 龄 、 教 育 痛 景 、 地 理 位 置 等 信息 划 
分 ) 是 否 存在 侦 见 。 一 个 简单 的 例子 是 3.3 市 中 用 过 的 高 尾 秦 分 类 示例 。 模 型 评估 右 可 以 用 来 检 
查 模型 对 3 种 癌 尾 花 亚 种 的 分 类 准确 率 是 否 大 致 相同 。 如 果 测 试 集 或 评 佑 集 对 某 个 群体 有 特别 倾 
竹 , 有 可 能 我 们 对 最 小 群体 的 预测 总 是 错误 的 ,但 在 更 高 层面 的 准确 率 分 析 中 无 法 发 现 这 类 问题 。 
就 和 模型 校 验 带 一 样 ， 评 佑 结 来 随时 间 的 变化 趋 擅 和 单个 时 间 点 的 评估 结 末 同样 重要 。 
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在 不 辞 辛劳 地 创建 、 训 练 和 测试 完 模 型 后 ， 是 时 候 让 它 派 上 用 场 了 。 这 个 过 程 叫 作 模 型 部 署 
(model deployment )。 它 和 前 儿 个 模型 开发 步骤 同等 重要 。 无 论 是 将 模型 部 普 到 客户 端 直接 进行 
推 新 ， 还 是 将 其 部 署 到 服务 需 端 返回 预测 结果 ， 我 们 都 希望 模型 尽 可 能 快 旦 高效 。 具 体 而 言 , 我 
们 希望 模型 能 够 做 到 以 下 两 点 。 

口 尺寸 较 小 ， 这 样 可 以 保证 能 够 快速 地 通过 网 络 加 载 或 从 便 盘 读 取 。 

口 调用 它 的 predict () 方 法 时 ， 消 耗 的 时 间 、 算 力 和 内 存 都 尽 可 能 少 。 

本 节 将 介绍 TensorFlow.js 中 可 用 的 一 些 优化 技巧 。 在 部 署 模型 前 , 它们 可 以 帮助 优化 模型 的 
体积 和 推断 速度 。 

优化 一 词 有 多 重 含 义 。 在 本 市 的 语 境 下 ,优化 指 的 是 模型 体积 的 减少 和 计算 速度 的 提升 。 不 
要 将 它 与 模型 训练 和 优化 絮语 境 下 的 梯度 下 降 算 法 混淆, 后 者 指 的 是 权重 参数 的 优化 ,一 般 可 以 
将 这 两 种 优化 分 别 叫 作 模 型 的 质量 ( quality ) 优化 和 模型 的 性 能 ( performance ) 优化 。 性 能 指 模 
型 执行 任务 需要 多 少时 间 和 资源 。 质 量 指 结 果 与 理想 水 平 有 多 接近 。 


12.2.1 通过 训练 后 的 权重 量化 优化 模型 体积 


对 于 Web 开发 者 而 言 ， 文 件 体 积 小 巧 且 能 通过 网 络 快速 加 载 的 重要 性 是 不 言 自明 的 。 如 果 
网 站 的 用 户 群 体 非常 大 或 者 部 分 用 户 的 网 络 环境 很 差 ， 这 一 点 就 更 为 重要 了 。 ”此 外 ， 如 果 模 型 
存储 在 移动 设备 上 (参见 12.3.4 节 中 关于 将 TensorFlow.js 部 署 到 移动 端的 讨论 )， 模 型 的 尺寸 往 
























































@ 2019 年 3 月 ， 谷 歌 网 站 的 首页 展示 了 一 个 能 够 以 约 阶 : 塞 巴 斯 蒂 安 ' 巴 赫 的 风格 作曲 的 神经 网 络 。 这 个 神经 网 络 是 
依靠 TensorFlow.js 在 浏览 需 中 运行 的 。 使 用 本 节 即 将 介绍 的 方法 ， 该 模型 被 量化 (quantize ) 成 一 系列 8 位 大 的 
整数 。 这 使 模型 的 传输 体积 缩减 到 了 380KB。 如 果 没 有 这 种 量化 方法 ， 要 将 模型 传播 给 谷歌 网 站 主页 的 庞大 用 户 
群体 是 不 慑 想象 的 。 
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往 会 受制 于 有 限 的 存储 空间 。 但 是 模型 的 体积 并 不 小 ， 并 且 必 定 还 会 不 断 增 长 ， 这 是 对 模型 部 署 
的 一 大 挑战 。 次 度 神经 网 络 的 容量 ( 即 预测 能 力 ) 往往 是 以 层 数 和 层 尺 寸 的 增长 为 代价 的 。 在 编 
写本 书 时 ,顶尖 的 图 像 识别 模型 *、 语音 识 别 模型 *、 自 然 语言 处 理 模型 * 和 生成 式 模 型 "的 权重 超 
过 1GB 已 经 是 常态 了 。 由 于 使 模型 保持 轻 量 和 强大 都 很 重要 ， 模 型 的 体积 优化 目 然 成 了 一 个 高 
度 活跃 的 研究 领域 。 它 的 目标 是 在 保持 神经 网 络 体积 尽 可 能 小 的 前 提 下 , 使 其 准确 率 尽 可 能 接近 
较 大 的 网 络 。 一 般 而 言 ， 有 两 种 策略 可 供 选 择 。 第 一 种 是 ， 人 研究 者 在 设计 神经 网 络 时 ， 束 把 最 小 
化 模型 尺寸 列 为 一 个 主要 目标 。 第 二 种 是 ， 缩 减 已 有 的 神经 网 络 的 体积 。 

我 们 介绍 convnet 时 提 过 的 MobileNetV2 模型 属于 第 一 种 ” 它 是 一 个 小 巧 、 轻 量 的 图 像 模型 ， 
此 适用 于 资源 有 限 的 浏览 需 环 境 和 移动 端 环 境 。MobileNetV2 相 较 于 ResNet50 这 样 训练 任务 相 
同 但 体积 更 大 的 模型 而 言 ， 准 确 率 稍 差 。 但 它 的 尺寸 (14MB ) 要 比 后 者 ( ResNet50 为 100MB ) 
小 得 多 。 这 样 看 来 ， 适 量 地 牺牲 准确 率 是 值得 的 。 

尽管 MobileNetV2 在 设计 上 更 轻 量 , 但 它 对 于 绝 大 部 分 JavaScript 应 用 程序 而 言 还 是 太 大 了 。 
毕竟 它 的 体积 ( 14MB ) 约 为 一 般 网 页 的 8 倍 。”MobileNetV2 还 提供 了 一 个 宽度 参数 ， 如 果 将 它 的 值 
设 为 小 于 1, 那么 所 有 卷 积 层 的 尺寸 都 会 减 小 , 从 而 进一步 降低 模型 的 体积 ( 当然 也 会 导致 准确 率 下 
降 )。 例 如 ， 如 果 将 MobileNetV2 的 宽度 参数 设 为 025， 那 么 其 体积 会 降 为 原本 的 V4 ( 即 3.5MB )。 
然而 即便 如 此 ， 有 些 流量 很 大 的 网 站 也 无 法 接受 这 种 对 页 面 大 小 和 加 载 时 间 的 负面 影响 。 

有 没有 方法 能 进一步 减少 这 类 模型 的 尺 才 呢 ? 竺 好 答案 是 肯定 的 。 接 下 来 登场 的 就 是 上 文 提 
到 的 第 二 个 策略 ， 即 跨 模型 (model-independent ) 的 体积 优化 。 这 类 方法 要 更 具 普 适 性 ， 它 们 无 
须 改 变 模型 的 架构 ， 因 此 广泛 适用 于 各 种 现存 的 深度 神经 网 络 。 这 里 将 具体 介绍 一 种 名 为 训练 后 
的 权重 量化 ( post-training weight quantization ) 的 技巧 。 它 背后 的 思想 很 简单 : 模型 训练 完成 后 ， 
用 更 低 的 数值 精度 存储 它 的 权重 参数 。 如 果 你 对 它 的 数学 原理 感 兴 趣 ， 可 以 参见 信息 栏 12-1 中 
对 该 流程 的 介绍 。 









































言 息 栏 12-1 训练 后 的 权重 量化 的 数学 原理 
在 训练 时 ， 和 神经 网 络 的 权重 参数 一 般 会 用 精度 为 32 位 (float32 ) 的 浮 点 数 表 示 。 不 仅 在 
TensorFlow.js 中 是 这 样 ， 其 他 深度 学 习 框 架 (例如 TensorFlow 和 PyTorch ) 也 是 如 此 。 这 种 高 
精度 表示 通常 是 可 接受 的 ， 因 为 模型 的 训练 环境 通常 对 资源 没有 限制 (例如 ,后 端的 工作 站 环 
境 通 常备 有 充足 的 内 存 、 高 速 的 CPU 和 CUDA GPU )。 然 而 实践 表明 ， 在 很 多 推断 场景 中 ， 
降低 权重 的 表示 精度 并 不 会 造成 准确 率 的 实质 性 损失 。 可 以 通过 将 float32 类 型 的 数值 映射 成 8 
位 或 16 位 的 整数 来 减 小 表示 精度 。 其 结果 表示 的 是 在 相同 权重 下 ， 数 值 在 所 有 取 值 范围 中 离 


中 参见 Kaiming He 等 人 的 文章 “Deep Residual Learning for Image Recognition”。 

@) 参见 Johan Schalkwyk 发 表 在 Google AI Blog 上 的 文章 “An All-Neural On-Device Speech Recognizer”。 

@) 参见 Jacob Devlin 等 人 的 文章 “BERT-- Pre-training of Deep Bidirectional Transformers for Language Understanding”。 

(4) 参见 TeroKaras、Samuli Laine 和 Timo Aila 的 文章 “AStyle-Based Generator Architecture for Generative Adversarial Networks”。 

(9) 参见 Mark Sandler 等 人 的 文章 “MobileNetV2 一 Inverted Residuals and Linear Bottlenecks”， 刊 载 于 JEEE Conference 
on Computer Vision and Pattern Recognition (CVPR)，2018 年 ， 第 4510~4520 页 。 

(© 据 HTTPArchive 网 站 于 2019 年 5 月 所 做 的 统计 , 桌面 端的 平均 页 面体 积 为 1828KB, 移动 端的 平均 页 面体 积 为 1682KB。 
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散 化 后 的 位 置 。 这 一 过 程 就 叫 作 量化 (quantization )。 
TensorFlow.js 会 逐个 量化 各 个 权重 。 例 如 ， 如 果 神 经 网 络 由 4 个 权重 变量 (例如 两 个 密集 层 
的 权重 和 偏差 ) 组 成 ， 那 么 每 个 权重 会 各 自作 为 一 个 整体 被 量化 。 权 重量 化 如 公式 (12.1) 所 示 。 
quantize(w) = floor((w 一 WMin) / Wscale * 2 ) (12.1) 
在 公式 (12.1) 中 ,，B 是 量化 结果 的 精度 的 位 数 。TensorFlow.js 目前 支持 8 位 和 16 位 两 种 取 
值 。wMin 是 权重 参数 的 最 小 值 。wscale 是 参数 的 范围 ( 即 最 大 值 和 最 小 值 的 差 )， 当 然 ， 这 个 公 
式 只 有 在 Wscale 不 为 替 时 才 成 立 。 在 特殊 情况 下 ,如果 wseale 为 零 , 则 意味 着 权重 的 所 有 参数 值 
相同 ， 因 此 所 有 的 w 都 会 得 到 相同 的 quantize(w) 值 : 0。 
两 个 辅助 值 win 和 Wseae 会 和 量化 后 的 权重 值 一 起 保存 下 来 ， 这 样 在 加 载 模型 时 就 可 以 恢 
复原 本 的 权重 值 。 这 一 过 程 叫 作 反 量 化 ( dequantization )， 如 公式 (12.2) 所 示 。 
dequantize(v)=v/ 20 (0022) 
无 论 Wscale 是 否 为 0， 上 面 的 公式 都 成 立 。 


训练 后 的 量化 可 以 大 大 降低 模型 体积 : 16 位 量化 可 将 模型 体积 减 半 ，8 位 则 可 以 将 其 缩减 
75%。 这 两 个 数字 都 只 是 售 计 值 , 原因 有 二 。 首先 , 模型 的 一 部 分 体积 是 对 模型 拓扑 结构 的 描述 ， 
它们 被 保存 在 JSON 文件 中 。 其 次 , 正如 信息 栏 12-1 中 所 说 的 , 量化 过 程 需要 保存 两 个 额外 的 浮 
点 数 一 一 Mn 和 wscate 一 一 以 及 一 个 新 的 整数 值 ( 量化 精度 的 位 数 )。 然 而 ， 和 权重 参数 精度 减 小 
所 带 来 的 体积 下 降 相 比 ， 这 些 人 额外 信息 的 影响 微乎其微 。 

量化 是 一 种 有 损 的 转换 。 精 度 的 减 小 会 损失 原 权重 值 的 部 分 信息 。 这 束 好 比 将 24 位 的 彩色 
图 像 变 为 8 位 的 彩色 图 像 (20 世纪 80 年 代 的 任 天 符 洲 戏 机 就 是 如 此 ), 其 中 的 变化 是 肉眼 可 见 的 。 
图 12-2 直观 地 比较 了 16 位 和 8 位 量化 对 应 的 离 敌 程 度 。 正 如 我 们 所 预期 的 ，8 位 量化 对 原 权重 
的 表示 要 更 为 粗 粒 度 。 在 8 位 量化 表示 中 ,权重 参数 共有 256 种 可 能 的 值 ,而 16 位 表示 则 有 65 536 
种 可 能 的 值 。 但 无 论 是 8 位 表示 还 是 16 位 表示 ， 和 32 位 表示 相 比 ， 精 度 都 盎 减 甚 多 。 
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图 12-2 16 位 权重 量化 和 8 位 权重 量化 的 示例 。 本 图 展示 了 如 何 对 =x 这 个 恒 等 困 数 (图 12-2a ) 
进行 16 位 和 8 位 量化 。 量 化 的 结果 分 别 展 示 在 图 12-2b 和 图 12-2c 中 。 为 了 让 量化 的 结 
更 明显 ， 图 中 截取 的 是 放大 之 后 的 x=0 附近 的 部 分 
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从 实用 角度 而 言 , 权重 参数 的 精度 损失 真 的 重要 吗 ? 从 部 署 神经 网 络 的 角度 而 言 , 真正 重要 
的 是 模型 在 测试 数据 上 的 准确 率 。 

为 了 回答 上 面 的 问题 ， 我 们 在 ts-examples 代码 仓库 的 quantization 文件 夹 下 整理 了 大 量 模 
型 ,它们 是 针对 不 同类 型 的 任务 而 设计 的 。 你 可 以 试 着 量化 这 些 模型 , 亲 喘 体验 一 下 量化 的 效果 。 
可 以 用 下 面 的 代码 获取 示例 程序 。 


git clone https://github.com/tensorflow/tfjs-examples .9lt 
cd tfjs-examples/quantization 

















yarn 


不 例 程序 包含 4 个 场景 。 每 个 场景 展示 数据 集 和 模型 的 一 种 独特 组 合 。 第 一 种 场景 是 用 各 种 
数值 特征 预测 加 州 各 地 区 的 平均 房价 。 这 些 数值 特征 包括 房 龄 的 中 位 数 、 房 间 总 数 等 。 桂 型 是 一 
个 共 5 层 的 网 络 ， 包 括 一 些 用 于 应 对 过 拟 合 的 dropout 层 。 可 以 使 用 以 下 命令 训练 并 保存 原 模型 
(量化 前 的 模型 )。 


yarn train-housing 


下 面 的 命令 会 以 16 位 和 8 位 的 精度 量化 保存 的 模型 ， 然 后 评估 这 两 种 量化 精度 分 别 会 对 模 
型 在 测试 集 ( 即 模型 在 训练 中 未 见 过 的 数据 ) 上 的 准确 率 造 成 什么 影响 。 


yarn gquantize-and-evaluate-housing 


为 了 方便 使 用 ， 上 面 的 命令 封装 了 很 多 操作 。 可 以 在 quantization/quantize_evaluate.sh 脚本 中 
找到 其 中 的 关键 步 又 ， 即 实际 量化 模型 的 部 分 。 在 脚本 中 还 可 以 找到 下 面 的 命令 。 它 会 以 16 位 
的 精度 量化 MODEL_JSON_PATH 路 径 下 的 模型 文件 。 你 可 以 参照 这 个 命令 ,量化 用 TensorFlow.js 
保存 的 模型 。 如 果 想 执行 8 位 精度 的 量化 , 将--quantization_ bytes 选项 设 为 1 即 可 。 

tensorflowjs_converter \ 

--input_format tfjs_layers model \ 
--Output_format tfjs_layers model \ 


--quantization bytes 2 \ 
"S{MODEL JSON_ PATH}" "S$S{MODEL PATH 16BIT}" 


上 面 的 命令 展示 了 如 何 对 用 JavaScript 训练 的 模型 进行 权重 量化 。tensorflowjs_ 


converter 还 文 持 在 Python 版 模型 到 JavaScript 版 模型 的 转换 过 程 中 进行 权重 量化 。 更 多 细节 
参见 信息 栏 12-2。 

















言 息 栏 12-2 ”权重 量化 来 自 Python 的 模型 
第 $ 章 中 展示 了 如 何 将 来 自 Keras (Python ) 的 模型 转换 为 TensorFlow.js 可 以 加 载 并 使 用 
的 模型 格式 。 在 这 个 从 Python 到 JavaScript 的 转换 过 程 中 ,也 可 以 进行 权重 量化 ， 用 正文 中 提 
到 的 --quantization bytes 选项 就 可 以 了 。 例如 ， 只 需要 使 用 下 列 命令 ， 就 可 以 用 16 位 
的 精度 转换 来 自 Keras 的 HDF5 (.hs ) 格式 的 模型 。 
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tensorflowjs_ Converter \ 
--input_ format keras \ 
--OouUutput_ format tfjs jayers model \\ 
--quantization bytes 2 \ 
"S {KERAS MODEL HS5 BATH}" "STFJS MODEL BATH}" 


在 该 命令 中 ，KERAS MODEI H5 PATH 是 从 Keras 导出 的 模型 的 路 径 。TEJS_MODEIL PATH 
是 经 过 格式 转换 和 权重 量化 后 的 模型 的 保存 路 径 。 


由 于 随机 初始 化 和 训练 时 数据 批 次 的 随机 顺序 ， 每 次 转换 实际 得 到 的 准确 率 值 都 会 稍 有 不 
同 。 然 而 ， 最 终 的 结论 一 定 是 一 致 的 : 如 表 12-1 中 的 第 一 行 所 示 ，16 位 精度 的 权重 量化 对 房价 
预测 的 MAE 影响 微乎其微 ， 而 8 位 精度 的 权重 量化 则 会 导致 MAE 值 的 大 幅 提升 〈 但 是 就 绝对 
变化 来 说 ， 仍 然 极 小 )。 

表 12-1 4 种 不 同 的 模型 在 训练 后 ， 经 过 权重 量化 获得 的 准确 率 
在 无 权重 量化 和 不 同 程度 量化 下 得 到 的 测试 集 损失 和 准确 率 


数据 集 和 模型 
2 32 位 标准 精度 无量 化) 8 位 量化 











加 州 房价 ，MLP 回归 模型 MAE’ = 0.311 984 MAE = 0.311 983 MAE = 0.312 780 
MNIST: convnet 准确 率 = 0.9952 准确 率 = 0.9952 准确 率 = 0.9952 
Fashion-MNIST: convnet 准确 率 = 0.922 准确 率 = 0.922 准确 率 = 0.9211 
ImageNet 中 的 1000 张 图 像 : top-1 准确 率 = 0.618 top-1 准确 率 = 0.624 top-1 准确 率 = 0.280 





MobileNetV2 top-5 准确 率 = 0.788 top-5 准确 率 = 0.789 top-5 准确 率 = 0.490 
a 加 州 房价 预测 模型 使 用 MAE 作为 损失 函数 。 和 准确 率 相 反 ，MAE 越 低 越 好 。 





权重 量化 示例 的 第 二 个 场景 基于 我 们 熟悉 的 MNIST 数据 集 和 深度 convnet 染 构 。 和 针对 房 
价 预 测 问题 的 实验 类 似 , 可 以 用 下 面 的 命令 训练 原 模型 , 然后 基于 量化 后 的 版 本 进行 准确 率 评 佑 。 


yarn train-mnist 





yarn quantize-and-evaluate-mnist 


如 表 12-1 的 第 二 行 所 示 ，16 位 和 8 位 权重 量化 都 不 会 给 模型 的 测试 准确 率 市 来 肉眼 可 见 的 
变化 。 这 体现 出 convnet 作为 多 分 类 器 这 一 特点 。 因 为 结果 是 使 用 argMax () 运算 获 得 的 ， 所 以 
各 层 较 小 的 变化 不 会 影响 模型 的 最 终 分 类 结 

这 个 发 现 能 够 代表 其 他 针对 图 像 的 多 分 类 融 吗 ? 要 注意 的 是 ，MNIST 是 相对 简单 的 分 类 问 
题 ， 尽 管 本 示例 中 使 用 的 简单 convnet 达到 了 接近 完美 的 准确 率 。 那 么 对 于 更 困难 的 图 像 分 类 问 
题 , 权重 量化 会 如 何 影响 模型 的 准确 率 呢 ? 接 下 来 用 权重 量化 示例 中 的 其 他 两 个 场景 来 回答 这 个 
问题 。 

我 们 在 10.2 节 中 接触 过 的 Fashion-MNIST 数据 集 就 是 一 个 更 难 的 问题 。 可 以 通过 下 面 的 命 
令 , 用 Fashion-MNIST 数据 集训 练 模型 ， 然 后 观察 16 位 精度 和 8 位 精度 的 权重 量化 如 何 影 啊 测 
试 集 上 的 准确 率 。 
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yarn train-fashion-mnist 
yarn quantize-and-evaluate-fashion-mnist 


表 12-1 中 展示 了 实验 的 结果 : 8 位 量化 使 测试 准确 率 小 幅 下 降 (从 92.2% 降 至 约 92.1% ), 而 
16 位 量化 则 无 任何 肉眼 可 见 的 变化 。 

ImageNet 是 比 上 一 例 更 复杂 的 图 像 分 类 问题 ， 因 为 它 有 多 达 1000 个 输出 类 别 。 因 此 ， 可 以 
直接 下 载 预 训练 的 MobileNetV2 模型 ,而 不 是 和 其 他 3 个 场景 一 样 从 头 训 练 模型 。 预 训练 的 模型 
会 在 ImageNet 数据 集中 的 1000 个 图 像 上 进行 测试 。 测 试 会 针对 量化 前 和 量化 后 的 不 同 模型 版 本 
进行 。 此 处 没有 选择 使 用 整个 ImageNet 数据 集 做 评 佑 , 因为 数据 量 过 于 庞大 ( 有数 百 万 个 图 像 )， 
并 且 由 此 得 到 的 结论 不 会 有 什么 变化 。 

为 了 更 全 面 地 评估 模型 在 ImageNet 问题 上 的 准确 率 ， 我 们 计算 了 两 种 准确 率 : top-1 准确 率 
和 top-5 准确 率 。top-1 准确 率 指 模型 给 出 的 预测 中 概率 最 大 的 预测 为 正确 的 概率 ，top-5 准确 率 
则 是 指 模型 给 出 的 预测 中 概率 排 前 5 位 的 预测 包含 正确 预测 的 概率 。 这 是 评估 模型 在 ImageNet 
上 的 准确 率 的 标准 方法 。 因 为 数据 集 的 类 别 标签 太 多 了 ， 所 以 其 中 一 部 分 非常 类 似 。 因 此 模型 输 
出 的 对 数值 最 高 的 那个 类 别 不 一 定 是 正确 的 , 但 排 前 $ 位 的 类 别 中 则 往往 包含 正确 答案 。 可 以 使 
用 下 面 的 命令 运行 MobileNetV2 模型 和 ImageNet 数据 集 的 场景 。 


yarn quantize-and-evaluate-MobileNetV2 


和 之 前 的 3 个 实验 不 同 ， 在 这 个 实验 中 ，8 位 的 量化 精度 对 测试 准确 率 有 实质 性 的 影响 ( 人参 
见 表 12-1 的 第 四 行 )。8 位 量化 版 的 MobileNet 的 top-1 准确 率 和 top-5 准确 率 远 低 于 原 模 型 。 这 
意味 着 MobileNet 模型 的 体积 优化 无 法 使 用 8 位 量化 。 然 而 ，16 位 量化 版 的 MobileNet 准确 率 和 
原 模 型 还 是 非常 接近 的 。" 由 此 可 见 ， 量 化 对 准确 率 的 影响 因 模型 和 数据 集 而 异 。 对 于 某 些 模型 
和 任务 〈 例 如 MNIST convnet )， 无论 是 16 位 量化 还 是 8 位 量化 ， 对 测试 准确 率 的 影响 都 微 乎 其 
微 。 在 这 些 情况 下 ， 应 该 尽 可 能 在 部 署 中 使 用 8 位 量化 模型 来 减少 下 载 时 间 。 对 于 另 一 些 模型 ， 
例如 Fashion-MNIST convnet 和 房价 回归 模型 ，16 位 量化 不 会 对 结果 有 可 见 影 响 ， 但 是 8 位 量化 
确实 会 使 准确 率 小 幅度 下 降 。 在 这 种 情况 下 , 就 需要 自己 判断 23% 的 模型 体积 下 降 是 否 值得 牺牲 
些许 准确 率 。 最 后 , 对 于 有 些 模型 类 型 和 任务 类 型 ( 例如 MobileNetV2 模型 和 ImageNet 数据 集 )， 
8 位 量化 会 导致 准确 率 的 大 幅 下 降 。 这 在 绝 大 部 分 场景 中 是 不 可 接受 的 。 对 于 这 类 问题 ， 就 必须 
使 用 原 模型 或 16 位 量化 的 版 本 了 。 

上 文 介绍 的 几 个 量化 示例 都 是 一 些 比较 简单 的 标准 问题 。 相 比 之 下 , 你 手头 的 问题 可 能 更 为 
复杂 ， 或 截然 不 同 。 需 要 记 住 的 一 个 关键 点 是 ,在 部 署 前 ， 应 该 按照 实际 使 用 场景 决定 是 否 应 该 
量化 模型 ， 以 及 量化 使 用 的 位 数 。 在 做 决定 前 , 应 该 先 尝 试 不 同 的 量化 精度 和 并 用 真实 数据 测试 
由 此 得 到 的 模型 ,在 本 章 末 尾 的 练习 (1) 中 ,你 将 有 机 会 试验 我 们 在 第 10 草 训 练 的 MNISTACGAN 
模型 ， 然 后 判断 对 于 该 生成 式 模型 ，16 位 量化 和 8 位 量化 哪个 更 合适 。 
















































































中 事实 上 ,8 位 量化 版 模型 的 准确 率 相 较 于 16 位 量化 版 模型 的 准确 率 还 有 小 幅度 提升 。 这 是 因为 此 处 使 用 的 数据 集 
较 小 ， 仅 有 1000 个 样 例 ， 导 致 测试 结果 上 会 有 小 幅 的 随机 波动 。 
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权重 量化 和 gzip 压缩 

8 位 量化 的 一 个 额外 好 处 是 ， 如 果 启 用 gzip 这 样 的 数据 压缩 技巧 ， 还 可 以 将 模型 的 网 络 传输 
体积 进一步 缩小 。 在 网 络 上 ，gzip 被 广泛 用 来 传输 较 大 的 文件 。 在 通过 网 络 传输 TensorFlow.js 
模型 时 也 总 是 应 该 启用 gzip。 神 经 网 络 的 非 量化 版 float32 权重 通常 不 适用 这 类 压缩 技巧 ， 因 为 
权重 值 的 变化 过 于 不 规则 ,很 少 存在 重复 的 模式 。 以 我 们 的 经 验 来 看 ， 对 于 非 量 化 版 的 模型 权重 
而 言 ，gzip 最 多 能 减 小 10% ~ 20% 的 体积 。16 位 版 的 权重 量化 效果 也 与 此 类 似 。 但是， 如 果 模 型 
采用 的 是 8 位 量化 ,压缩 率 就 会 有 显著 提升 (对 于 小 型 模型 ， 体 积 减 小 最 多 可 达 30% ~ 40%; 对 
于 大 型 模型 ， 体 积 减 小 最 多 可 达 20% ~ 30%。 详 情 参 见 表 12-2 )。 

这 是 因为 精度 的 大 幅 下 降 使 取 值 范 围 变 得 非常 小 ( 仅 256 种 可 能 )。 这 导致 很 多 值 (例如 0 
附近 的 值 ) 会 被 量化 到 同一 个 取 值 区 间 ， 从 而 在 权重 的 二 进 制 表 示 中 产生 一 些 重复 的 模式 。 这 是 
使 用 8 位 量化 的 另 一 大 原因 ， 只 要 不 对 测试 准确 率 带 来 不 可 接受 的 负面 影响 即 可 。 


表 12-2 不 同 量化 精度 下 ， 模 型 文件 的 gzip 压缩 率 




















数据 集 和 模型 > 
32 位 标准 精度 〈 无 量化 ) 8 位 量化 
加 州 房价 : MLP 回归 模型 1.388 
MNIST: convnet 1.184 
Fashion-MNIST: convnet ].229 
ImageNet 中 的 1000 张 图 像 : MobileNetV2 1.271 





a 即 (modeljson 和 权重 文件 的 总 体积 )Mgzip 压缩 后 的 压缩 包 大 小 )。 


总 体 来 看 , 训练 后 的 权重 量 可 以 帮助 大 幅 减 少 本 地 存储 和 远程 传输 TensorFlow.js 模型 时 的 模 
型 体积 。 如 果 启 用 类 似 gzip 这 样 的 数据 压缩 技巧 就 更 是 如 此 了 。 这 种 额外 的 压缩 率 提 升 无 顷 开 
发 者 投入 任何 精力 , 因为 浏览 器 下 载 模型 文件 时 会 自动 完成 解压 缩 。 然 而 , 即使 采用 了 这 些 技巧 ， 
模型 推 呆 所 需 的 计算 量 仍 不 会 有 任何 改变 。 同 时 ， 因 此 而 占用 的 CPU 和 GPU 内 存 也 不 会 改变 。 
这 是 因为 模型 加 载 完 后 ， 权 重 会 被 反 量化 (dequantize， 人 参见 信息 栏 12-1 中 的 公式 (12.2) )。 就 模 
型 执行 的 运算 和 运算 使 用 的 数据 类 型 和 形状 而 言 , 非 量 化 版 模型 和 量化 版 模型 之 间 也 没有 任何 区 
别 。 一 个 与 压缩 认同 等 重要 的 考量 是 使 模型 尽 可 能 快速 地 运行 , 同时 在 运行 时 尽 可 能 少 地 占用 内 
存 ， 因 为 这 样 能 够 提升 用 户 体验 并 减少 能 源 消 耗 。 那 么 ， 有 没有 什么 方法 能 够 加 速 已 有 的 
TensorFlow.js 模型 的 运行 ,但 同时 又 不 影响 其 预测 准确 率 ( 同时 还 和 模型 体积 优化 兼容 ) 呢 ? 值 
得 庆 笠 的 是 ， 答 案 是 肯定 的 。 下 一 节 将 聚焦 于 TensorFlow.js 提供 的 推 肝 速度 优化 技巧 。 


12.2.2 ”基于 GraphModael 转换 的 推 岂 速 度 优化 


本 节 的 结构 大 致 如 下 : 首先 会 介绍 基于 GraphModel 转换 的 推 新 速度 优化 会 涉及 哪些 步 又; 
随后 会 列 出 模型 具体 的 性 能 数据 , 并 以 此 量化 这 种 方法 带 来 的 速度 提升 ; 最 后 会 介绍 GraphModel 
转换 方法 的 底层 工作 原理 。 
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假设 有 一 个 保存 在 my/layers-model 路 径 下 的 TensorFlow.js 模型 。 可 以 用 下 面 的 命令 将 其 转 
换 为 一 个 tf .GraphModel 模型 。 


tensorflowjs_ converter \ 
--input_format tfjs_layers model \ 
--output_format tfjs_graph model \ 
my/layers-model my/graph- 
model 


上 面 的 命令 会 在 my/graph-model 文件 夹 下 创建 一 个 modeljson 文件 ( 如 果 文 件 夹 不 存在 , 它 
会 被 自动 创建 ) 和 一 些 二 进 制 的 权重 文件 。 表面 上 看 ,这 组 文件 的 格式 和 输入 文件 夹 中 包含 的 序 
列 化 的 tf.LayersModel 模型 文件 相同 ， 实 则 不 然 。 输 出 文件 编码 的 是 一 种 不 同 的 模型 ， 即 
tf.GraphModel 模型 ( 本 市 介绍 的 优化 方法 就 得 名 于 此 )。 为 了 在 浏览 硕 或 Node.js 环境 中 加 载 
转换 后 的 模型 ， 我 们 需要 使 用 tf .1oadqGraphModel () 方 法 ， 而 不 是 熟悉 的 tf .1oadqLayers- 
Model () 方 法 。tf.GraphModel 对 象 加 载 完 成 后 ， 就 可 以 采用 和 tf.LayersModel 模型 完全 
相同 的 方式 ， 通 过 调用 模型 对 象 的 predict () 方 法 进行 推 新 。 具 体 方法 如 下 。 

— const model = await tf.loadcraphModel('file://./my/graph-model/model.json'); 
const ys = model.predict (xs); 
用 输入 数据 xs 








浏览 器 环境 模型 ， 可 必 
二 让 0 让 进行 推断 
虽然 推断 速度 有 所 提升 ,但 它 有 如 下 两 个 限制 。 
口 编写 本 书 时 的 最 新 版 的 TensorFlow.js( 版 本 1.1.2 ) 不 支持 对 循环 层 进 行 GraphModel 转 
换 ， 这 包括 tf. layers.simpleRNN()、 tf.layers.grul() 和 tt. layers.lstm() ( 参 
见 第 9 章 )。 
口 加 载 后 的 tf .GraphModel 对 象 没 有 fit () 方 法 ， 目 然 也 不 文 持 进一步 的 训练 〈 例 如 迁 
移 学 习 )。 
表 12-3 中 比较 了 两 种 模型 在 GraphModel 转换 前 后 的 推 肝 速度。 因为 GraphModel 暂时 还 
不 支持 转换 循环 层 ， 所 以 此 处 只 展示 了 MLP 和 convnet ( MobileNetV2 ) 的 结果 。 为 了 体现 不 同 
环境 下 的 速度 表现 ， 表 12-3 中 同时 还 展示 了 来 目 浏 览 硕 环境 和 芭 S-node 环境 的 结果 。 从 表 中 可 
以 看 出 ,各 种 情况 下 ，GraphModel 转换 都 会 市 来 速度 提升 ,但 提速 的 比例 则 因 模 型 类 型 和 部 署 
环境 而 异 。 对 于 浏览 锅 (WebGL ) 部 署 环 境 ，GraphModael 转换 的 提速 比例 达到 20% ~ 30%， 而 
Nodejs 环境 中 的 提速 则 更 为 明显 (70% ~ 90% )。 接 下 来 会 介绍 为 何 GraphModel 转换 可 以 加 速 
推 新 ， 以 及 为 何 Nodejjs 环境 的 提速 幅度 比 浏览 絮 环 境 大 那么 多 。 
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表 12-3 ”比较 两 种 模型 类 型 (MLP 和 MobileNetV2) GraphModel 转换 前 后 的 推断 速度 。 表 中 还 按照 部 署 
环境 的 类 型 对 数据 进行 了 分 类 “ 
predict() 方 法 的 执行 时 间 (单位 为 毫秒 ， 数 值 越 低 越 好 ) 
模型 名 字 和 《结果 为 30 次 调用 的 平均 值 ， 在 此 之 前 还 有 20 次 调用 ， 用 于 给 模型 预 热 ) 
拓扑 结构 浏览 器 (WebGL) tfis-node-gpu 
EE 16 (提速 90%) 


MobileNetV2 57 (提速 20%) 187 111 (提速 70%) 39 (提速 70%) 
(width = 1.0 ) 


a 相关 代码 参见 图 灵 社 区 : http://ituring.cn/book/2813。 一 一 编者 注 。 
b MLP 模型 各 密集 层 的 单元 数 分 别 为 4000、1000、5000 和 1。 前 三 层 使 用 ReLU 作为 激活 函数 ， 最 后 一 层 使 用 线性 激活 函数 。 








GraphModel 转换 为 何 能 加 速 模型 的 推断 

GraphModel 转换 为 何 能 够 加 速 TensorFlow.js 模型 的 推 新 呢 ? 这 是 通过 利用 Python 版 
TensorFlow 对 模型 的 计算 图 ( computation graph ) 进行 细 粒 度 的 提前 分 析 实 现 的 。 分 析 完 成 后 ， 
会 在 保证 计算 图 输出 结 采 正确 性 的 基础 上 对 它 做 一 些 修改 ， 从 而 减少 计算 量 。 不 要 被 提前 分 析 
( ahead-of-time analysis ) 和 细 粒 度 ( fine granularity ) 这 类 术语 吓 到 。 我 们 马上 就 会 解释 它们 。 

接 下 来 用 一 个 具体 示例 说 明 上 文中 所 提 到 的 计算 图 修改 完 竟 指 什么 。 思 考 一 下 在 tf .Layers- 
Model 模型 和 tf.GraphModel 模型 中 ，BatchNormalization 层 ( 即 批 标 准 化 层 ) 分 别 是 如 何 运 
行 的 。 之 前 提 到 过 ，BatchNormalization 层 是 一 种 能 够 在 训练 中 改进 收敛 并 减少 过 拟 合 的 层 类 型 。 
在 TensorFlow.js 中 创建 BatchNormalization 层 的 API 是 tf.layers.batchNormalization()。 
很 多 流行 的 预 训练 模型 ( 如 MobileNetV2 ) 会 用 到 它 。 当 BatchNormalization 层 作 为 tf.LayersModel 
的 一 部 分 运行 时 ， 它 会 严格 遵循 如 公式 (12.3) 所 示 的 批 标 准 化 (batch normalization ) 公式 。 

output = (x — mean)/ (sgrt(var) + epsilon) x gamma + beta (12.3) 

对 于 给 定 的 输入 (x )， 共 需要 6 个 运算 (operation， 人 简称 op ) 步骤 生成 其 输出 。 它 们 的 大 人 致 
顺序 如 下 : 

(1) gort, 其 输入 为 var; 

(2) adaa， 其 输入 为 epsilon 和 步骤 () 得 到 的 结果 ; 

(3) .Subs 其 输入 为 x 和 mean: 

(4) div， 其 输入 为 第 (2) 步 和 第 (3) 步 的 结 

(5) mul， 其 输入 为 gamma 和 第 (4) 步 的 结果 ; 

(6) aad， 其 输入 为 peta 和 第 (5) 步 的 结 

只 要 mean、var、epsilon、gamma 和 beta 是 常量 ( 即 数值 不 因 输 入 和 层 的 调用 次 数 而 
改变 )， 通 过 运用 一 些 简 单 的 运算 法 则 ， 就 可 以 大 幅 地 简化 公式 (12.3)。 通 过 训练 含有 
BatchNormalization 层 的 模型 ， 这 些 变 量 实际 上 会 变 为 常量 。 这 正 是 GraphModel 转换 所 做 的 。 
它 会 “ 折 登 ”(fold ) 这 些 和 常量， 并 入 化 公式 ， 从 而 得 到 如 公式 (12.4) 所 示 的 等 效 公式 。 

output =x x k+i+b (12.4) 
































其 实 上 和 4。 的 值 是 在 GraphModel 的 转换 过 程 中 ( 而 不 是 推 财 过程 中 ) 算出 来 的 。 
k= gamma / (sgrt(var) + epsilon (12.5) 
b=—mean/ (sqrt(var) + epsilon) x gamma + beta (12.6) 
因此 ， 公 式 (12.3) 和 公式 (12.6) 的 计算 不 应 算 在 推 靳 过程 的 整体 计算 量 里 。 只 有 公式 (12.4) 的 
部 分 属于 推 新 过 程 。 通 过 比较 公式 (12.3) 和 公式 (12.4) 可 以 发 现 ， 常 数 折 丢 ( constant folding ) 和 
算式 的 简化 可 以 将 运算 的 数量 从 6 个 减 到 2 个 〈 一 个 为 x 和 大 间 的 mul 运算 ， 一 个 为 该 运算 和 
间 的 aqa 运算 )， 从 而 大 幅 提高 层 的 运行 速度 。 但 是 为 何 tf .LayersModel 不 做 这 个 优化 呢 ? 
这 是 因为 它 需 要 文 持 BatchNormalization 层 的 训练 。 训 练 的 每 一 步 都 会 更 新 mean、var、gamma 
和 beta。GraphModel 转换 正 是 利用 了 这 些 值 在 训练 后 就 无 须 更 新 的 特性 。 
只 有 在 下 面 的 两 个 要 求 达成 时 ，BatchNormalization 示例 展示 的 这 种 优化 才 有 可 能 实现 。 痛 
和 完 ， 必 须 能 够 以 足够 细 的 粒度 表示 计算 流程 。 换 言 之 ， 必 须 能 够 用 aad 和 mul 这 类 基础 运算 ， 
而 不 是 更 粗 粒 度 的 TensorFlow.js Layer API 提供 的 层 与 层 间 的 运算 表示 。 其 次 ， 所 有 的 计算 都 必 
须 提 前 知道 ， 即 在 调用 模型 的 predict () 方 法 之 前 知道 。GraphModel 转换 会 用 到 Python 版 的 
TensorFlow， 因 为 它 能 够 获取 模型 的 计算 图 表示 ， 从 而 满足 上 述 的 两 个 要 求 。 
除了 上 文 讨论 的 常数 折 针 和 算式 简化 外 ，GraphModel 转换 还 可 以 实现 另 一 类 优化 : 运算 融 
合 (op fusion )。 以 常用 的 密集 层 ( tf .layers .dense() ) 为 例 ， 其 中 涉及 3 种 运算 : 输入 x 和 
核 丈 间 的 矩阵 乘法 运算 (matMul )、matMul 和 偏差 5b 间 的 加 法 运算 (会 用 到 广播 机 制 )， 以 及 
元 素 间 的 ReLU 激活 函数 运算 ( 见 图 12-3a )。 运算 融合 可 以 将 3 个 分 开 的 运算 答 换 成 等 效 的 单个 
运算 ( 见 图 12-3b )。 这 种 蔡 换 可 能 看 起 来 非常 浅显 , 但 确实 会 市 来 计算 速度 的 提升 , 有 两 个 原因 
(1) 启动 运算 的 额外 开销 减少 了 (是 的 , 无 论 使 用 什么 环境 , 每 个 运算 总 是 市 有 一 定 的 额外 开销 ); 
(2) 有 更 多 机 会 在 运算 融合 自身 的 代码 中 实现 一 些 速 度 优化 技巧 。 
a. 未 采用 运算 融合 优化 b. 使 用 运算 融合 优化 
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图 12-3 密集 层 内 部 运算 的 示意 图 。 图 12-3a 和 图 12-3b 分 别 对 应 使 用 和 没 使 用 运算 
融合 优化 的 情况 
运算 融合 优化 和 我 们 见 到 的 常量 折 钱 及 算式 简化 方法 有 何不 同 呢 ?运算 融合 优化 要 求 为 计 
算 环 境 明 确定 义 需 要 使 用 的 特殊 融合 运算 ( 此 处 为 Fuseqd matMul+relu )。 稼 量 折 著 则 没有 这 
个 要 求 。 这 些 特殊 的 融合 运算 可 能 只 在 特定 的 计算 环境 和 部 署 环境 中 才 可 以 使 用 。 这 就 是 为 何 
Node.js 环境 下 的 推 叶 速 度 提 升 比 浏 览 套 环境 要 大 得 多 (〈 见 表 12-3 )。Node.js 计算 环境 使 用 的 是 
C++ 和 CUDA 编写 的 libtensorflow。 相 较 于 TensorFlow.js 在 基于 WebGL 的 浏览 右 环 境 中 可 以 使 
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用 的 运算 ，libtensorflow 可 使 用 的 运算 要 更 为 丰 宦 。 

除了 常量 折 徐 、 算 式 简 化 和 运算 融合 外 ，Python 版 TensorFlow 的 图 优化 系统 Grappler 还 可 
以 执行 很 多 其 他 优化 。 其 中 一 部 分 与 TensorFlow.js 模型 如 何 通 过 GraphModel 进行 优化 有 关 。 
然而 ,由 于 篇 幅 有 限 ,此 处 就 不 再 袭 述 了 ,如 果 想 要 了 人 解 有 关 该 话题 的 更 多 信息 ,可 以 阅读 Rasmus 
Larsen 和 Tatiana Shpeisman 制作 的 翔实 的 幻灯 片 (参见 12.4 市 )。 

总 体 来 说 ， GraphModel 转换 是 tensorflowjs_converter 提供 的 一 个 优化 技巧 。 它 可 以 
利用 Python 版 TensorFlow 的 提前 ( ahead-of-time ) 图 优化 能 力 来 简化 计算 图 ,并 减少 模型 推断 的 
计算 量 。 尺 管 实际 的 推断 提速 幅度 会 根据 模型 类 型 和 计算 环境 而 变化 , 但 一 般 而 言 ， 它 能 市 来 至 
少 两 成 的 提速 。 因 此 ， 这 是 在 部 署 前 的 一 个 推荐 的 优化 步骤 。 





























言 息 栏 12-3 ”如 何 正 确 地 测量 TensorFlow.js 模型 的 推断 时 间 

tf.LayersModel 和 tf.GraphModel 提供 的 predict () 推 断 方 法 是 一 致 的 。 该 方法 可 
接收 一 个 或 多 个 张 量 作为 输入 ,并 返回 一 个 或 多 个 张 量 作为 推断 结果 。 但 是 ， 有 一 点 值得 特别 
注意 : 在 基于 WebGL 的 浏览 器 环境 中 进行 推断 时 ，predict () 方 法 只 负责 调度 需要 在 GPU 
上 进行 的 运算 ， 并 不 会 等 待 这些 运 工 执行 完成 才 返回 。 因 此 ， 如 果 简 单 地 以 下 面 的 方式 调用 
predqict () ， 由 此 测量 出 的 运行 时 间 有 是 错误 的 。 

sc aa 

console., Eimeend('"'TIs inference')s 万 法 是 错误 的 

predict () 方 法 返回 时 ,， 运 昔 可 能 还 未 执行 完 。 因 此 ， 上 面 示 例 中 得 到 的 测量 时 间 会 比 实 
际 完 成 推断 的 耗 时 更 短 。 如 果 要 确保 在 console.timeEnd() 调 用 前 , 运算 就 执行 完毕 ， 则 需 
要 调用 下 列 返 回 的 张 量 对 象 的 方法 之 一 : array () 或 data()。 这 两 个 方法 都 会 将 存储 输出 张 
量 各 元 素 的 材质 值 (texture value ) 从 GPU 下 载 到 CPU 上 。 它 们 必须 等 到 输出 张 量 的 计算 结束 
后 才能 这 么 做 。 因 此 ， 正 确 的 推断 时 间 测 量 方法 如 下 所 示 。 


clo nson me se 
Const outputTensor = model .predict (inputTensor),; 


aWalt onctonmtTeneor. arra ; 人 
和 ye array() 方 法 直到 outputTensor 





eloms on em 的 计算 完成 后 才 会 返回 。 这 样 就 能 
确保 推断 时 间 的 测量 结果 是 正确 的 

另 一 个 需要 特别 注意 的 地 方 是 ， 就 像 其 他 所 有 JavaScript 程序 一 样 ，TensorFlow.js 模型 的 
推断 时 间 是 变化 的 。 若 要 获得 可 靠 的 推断 时 间 估 计 ， 应 该 将 上 面 的 代码 片段 放 到 一 个 for 循 
环 中 ， 获 取 多 次 测量 结果 (例如 50 次 )， 然后 基于 多 个 测量 结果 取 平 均值 。 因 为 需要 编译 新 的 
WebGL 着 色 器 ( shader ) 程序 并 设置 初始 状态 ， 所 以 前 几 次 推断 一 般 会 比 后 续 的 慢 。 因 此 , 性 
能 测量 代码 一 般 会 忽略 前 几 次 运行 的 结果 ( 比如 前 5 次 )。 这 种 做 法 叫 作 保 机 (burn-in ) 或 预 
热 ( warm-up )。 

如 果 想 深入 理解 这 些 针 对 性 能 的 测量 方法 ， 请 尝试 解答 术 章 末尾 的 练习 (3)。 
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12.3 ”部署 TensorFlow.js 模型 到 不 同 的 平台 和 环境 


你 的 模型 已 经 得 到 了 充分 的 优化 。 它 又 快 又 轻 量 , 并且 通过 了 所 有 的 测试 。 你 已 经 准备 好 将 
模型 推广 给 用 户 使 用 了 ! 可 豆 可 资 ! 但 还 没 到 开 香 模 庆 祝 的 时 候 ， 因 为 我 们 还 有 一 些 工作 要 做 。 

是 时 候 将 模型 放 入 应 用 程序 中 ,并 推广 给 你 的 用 户 了 。 本 市 中 将 介绍 一 些 部 团 平 台 。Web 环 
境 和 Nodejjs 环境 是 两 个 大 家 熟知 的 部 署 选择 ,但 是 本 市 中 还 会 介绍 一 些 不 那么 广为人知 的 部 署 
平台， 比如 浏览 带 插 件 和 单 厂 机 这 类 艇 入 式 便 件 。 对 于 每 个 平台 ,我 们 会 介绍 一 些 相 关 的 例子 和 
针对 该 平台 的 一 些 特殊 考量 。 


12.3.1 ”部署 到 Web 环境 时 的 一 些 额外 考量 


让 我 们 从 探讨 TensorFlowjs 模 型 最 和 常见 的 部 署 场景 开始 ,即将 模型 封装 在 网 页 里 , 再 发 布 到 
Web 闹 。 在 这 个 场景 中 ，JavaScript 代码 会 从 远程 的 服务 右 加 载 训练 好 的 ( 可 能 经 过 优化 的 ) 模 
型 。 然 后 模型 会 利用 浏览 硕 内 置 的 JavaScript 引擎 进行 预测 。 这 种 模型 部 署 场景 的 一 个 好 例子 是 
第 $ 草 的 MobileNet 图 像 分 类 示例 。 你 也 可 以 从 ts-examples/mobilenet 代码 仓库 下 载 该 示例 。 作 
为 回 兢 ， 可 以 用 如 下 代码 加 载 模型 并 进行 预测 。 


Const MOBILENET _ MODEL PATH = 
'https://storage.googleapis.com/tfjs- 
models/tfjs/mobilenet v1 0.25 224/model.json'; 
const mobilenet = await tf.loadLayersModel (MOBILENET MODEL PATH); 
const response = mobilenet.predict (userQueryAsTensor).; 


模型 保存 在 谷歌 去 平台 ( Google Cloud Platform, GCP ) 的 对 和 象 存储 服务 中 。 对 于 这 样 流 量 较 
小 的 静态 应 用 程序 , 可 以 很 容易 地 将 模型 和 网 站 的 其 他 资源 以 这 种 静态 的 方式 存储 起 来 。 更 大 的 
高 流量 应 用 程序 可 能 会 通过 内 容 分 发 网 络 ( content delivery network, CDN ) 分 发 模型 和 其 他 较 大 
的 静态 资源 。 一 个 常见 的 错误 是 ， 在 GCP 、 亚 马 逊 S3 和 其 他 云 服 务 中 配置 对 象 存储 时 记 了 配置 
跨 域 资源 共享 ( Cross-Origin Resource Sharing, CORS )。 如 果 没 有 正确 地 配置 CORS， 则 模型 会 加 
载 失 败 ， 控 制 台 中 会 显示 CORS 相关 的 错误 信息 。 如 采 你 的 Web 应 用 程序 可 以 在 本 地 正常 运行 ， 
但 在 公有 平台 上 不 行 ， 就 要 想 想 是 不 是 这 个 原因 导致 的 。 

在 用 户 的 浏览 人 加 载 完 HTML 和 JavaScript 文件 后 ，JavaScript 解释 需 就 会 开始 加 载 模型 。 
如 果 使 用 的 是 较 新 的 浏览 右 ,， 并 且 网 络 环境 良好 ， 加 载 一 个 小 模型 只 需 数 百 毫 秒 。 经 过 初次 加 载 
后 ， 就 可 以 直接 从 浏览 器 的 缓存 中 加 载 模型 。 模 型 的 序列 化 格式 确保 它 可 以 被 雄 厂 化 成 较 小 的 、 
符合 浏览 硕 绥 存 限制 的 切片 。 

将 模型 部 署 到 Web 环境 的 一 大 优势 是 可 以 直接 在 浏览 融 中 进行 预测 。 任 何 传人 模型 的 数据 
无 须 通过 网 络 传输 , 这 对 降低 延迟 和 保护 隐私 都 非 党 有益。 想象 一 下 预测 用 户 输入 的 文本 的 场景 。 
在 这 个 场景 中 ,模型 需要 预测 用 户 将 输入 的 下 一 个 单词 ， 从 而 辅助 用 户 打 字 。 这 是 一 个 很 常见 的 
功能 ， 比 如 Gmail 就 提供 了 类 似 的 功能 。 如 果 我 们 需要 将 现 有 的 文本 传输 到 云 病 的 服务 右 ， 并 等 
到 服务 硕 返 回 预 测 结果 后 才 推 荐 下 一 个 单词 ， 这 个 过 程 的 延迟 就 太 大 了 ， 并 且 也 没什么 意义 了 。 
此 外 ,有 些 用 户 还 可 能 认为 ,将 他 们 正在 输入 的 内 容 发 送 到 某 个 远程 的 服务 器 是 对 其 隐私 的 侵犯 。 
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只 在 本 地 的 浏览 如 中 进行 预测 就 要 安全 和 车 重 隐私 得 多 。 

在 浏览 旨 内 进行 预测 的 紫 端 是 无 法 保障 模型 本 号 的 安全 。 如 采 将 模型 发 给 用 户 使 用 ,用户 能 
够 轻易 地 保存 模型 并 用 于 其 他 用 途 。 对 于 这 一 点 ，TensorFlow.js 日 前 (截至 2019 年 ) 还 没有 应 
对 措施 。 在 一 些 其 他 的 部 署 场景 中 ,可 以 更 好 地 避免 用 户 以 违 育 开发 者 初衷 的 方式 使 用 模型 。 一 
种 能 保障 模型 安全 的 方法 是 将 其 保存 在 开发 者 能 完全 掌控 的 服务 需 端 , 浏览 郁 仅 从 服务 需 端 获取 
返回 结果 。 当 然 , 这 样 就 会 牺牲 一 定 的 传输 速度 和 隐私 。 开 发 者 需要 根据 产品 的 实际 需求 来 权 衔 
这 些 方面 的 顾 愿 。 





























12.3.2 ”部 署 到 云 环 境 


很 多 云 平台 供应 商会 以 服务 的 方式 提供 训练 好 的 机 各 学 习 模 型 的 预测 结果 。 这 包括 Google 
Cloud Vision AL 和 Microsoft Cognitive Services。 终 病 用 户 只 需要 在 HTTP 请 求 中 提供 预测 所 需 的 
输入 , 例如 目标 检测 任务 中 的 图 像 ， 然 后 云 服务 就 会 返回 模型 输出 的 预测 结果 , 例如 目标 在 图 像 
中 的 标签 和 位 置 。 

截至 2019 年 ， 有 两 种 在 服务 需 端 使 用 TensorFlow.js 模型 的 方法 。 第 一 种 方法 是 在 服务 需 端 
运行 Nodejs， 然 后 用 原生 的 JavaScript 运行 时 进行 预测 。 因 为 TensorFlow.js 非常 新 , 所 以 暂时 还 
不 知道 有 什么 生产 级 别 的 系统 使 用 了 这 种 方法 ， 但 不 难 用 这 种 方法 做 些 简 单 的 概念 验证 。 

第 二 种 方法 是 将 模型 从 TensorFlow.js 格式 转换 为 适用 于 其 他 已 知 的 服务 硕 端 技术 的 格式 。 其 
一 个 推荐 的 服务 病 端 技术 是 TensorFlow Serving 系统 。 下 面 这 上段 话 摘 目 其 文档 的 引言 。 


TensorFlow Serving 是 一 个 适用 于 机 器 字 习 模型 的 灵活 、 高 性 能 应 用 系统 ， 专 为 生 
产 环 境 而 设计 。 借 助 TensorFlow Serving， 您 可 以 轻松 部 署 新 算法 和 实验 ， 同 时 保留 相 
同 的 服务 器 架构 和 API。TensorFlow Serving 提供 与 TensorFlow 模型 的 开 箱 即 用 型 集成 ， 
但 也 可 以 轻松 扩展 以 应 用 其 他 类 型 的 模型 和 数据 。 


在 之 前 的 示例 中 ， 我 们 都 将 模型 序列 化 并 保存 为 JavaScript 特有 的 格式 。TensorFlow Serving 
系统 则 有 要求 将 模型 保存 为 符合 TensorFlow 标准 的 SavedModel 格式 。 令 人 庆 地 的 是 ,我 们 可 以 借 
助 tfjs-converter 项 目 将 现 有 模型 转换 成 TensorFlow Serving 系统 所 需 的 格式 。 

第 5 章 中 展示 了 如 何在 TensorFlow.js 中 使 用 来 自 Python 版 TensorFlow 的 SavedModel 格式 的 
模型 。 如 果 要 反 过 来 在 Python 版 TensorFlow 中 使 用 来 自 TensorFlow.js 的 模型 ， 就 需要 安装 
tensorflowjs 这 个 pjp 包 。 














中 


3 


pip install tensorflowjs 


接 下 来 需要 运行 格式 转换 程序 ， 并 指明 输入 和 输出 的 格式 。 


tensorflow]js_ converter \ 





--ijnput_format=tf]js_ layers model \ 
--Ooutput format=keras_saved model \ 
/path/to/your/jJs/model.json \ 
/path/to/your/new/saved-model 
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上 面 的 命令 会 创建 一 个 新 的 、 名 为 saved-model 的 文件 夹 。 该 文件 夹 包含 与 TensorFlow 
Serving 兼容 的 模型 折 扑 结构 和 权重 文件 。 接 下 来 ， 你 应 该 可 以 东 循 构建 TensorFlow Serving 服 
务 器 的 相关 文档 的 指示 ， 用 gRPC 同和 运行 中 的 模型 发 出 预测 请 求 。 此 外 ， 还 可 以 使 用 托管 式 
( managed ) 服务 ， 例 如 Google Cloud Machine Learning Engine 提供 的 服务 。 该 服务 允许 用 户 上 
传 本 地 保存 好 的 模型 到 云 存储 ， 然 后 将 模型 作为 服务 又 露出 去 ， 这 样 就 免除 了 目 己 维护 服务 硕 
的 烦恼 。 

将 模型 部 获 到 云 并 的 一 大 好 处 是 , 你 对 模型 有 完全 的 和 掌控。 你 可 以 非常 轻松 地 通过 日 志 查 询 
檬 型 输入 的 历史 记录 ， 并 快速 地 定位 问题 。 如 采 发 现 模 型 有 开发 时 未 预见 的 问题 ， 可 以 很 快 移 除 
有 问题 的 部 分 ， 或 升级 模型 。 同 时 ， 这 也 避免 了 别人 在 你 不 知情 的 情况 下 获取 模型 的 可 能 。 正 如 
上 文 讨 论 过 的 , 这 么 做 的 浆 缮 是 推 其 的 延 开会 增加 ,并 且 会 有 泄露 隐私 数据 的 隐患 。 此 外 还 有 一 
个 琴 端 ， 即 额外 的 资金 投入 和 维护 成 本 ， 因 为 这 个 部 署 选项 需要 使 用 云 服 务 , 并 且 你 要 亲 力 杀 为 
地 配置 服务 右 系 统 。 














12.3.3” ”部署 到 浏览 器 插件 (例如 Chrome 插件 ) 环境 


一 些 客户 端 应 用 场景 可 能 会 要 求 应 用 程序 能 够 在 不 同 的 网 站 中 使 用 .所 有 的 主流 果 面 端 浏览 
圳 都 提供 了 浏 览 融 搬 件 框架 ， 包 括 Chrome、Safari 和 FireFox 等 。 这 些 框架 使 开发 者 可 以 通过 插件 
修改 或 加 强 浏 览 体验 本 和 刁 。 这 些 浏览 右 插 件 可 以 给 网 站 添加 J avaScript 代码 或 修改 网 站 的 DOM。 

为 插件 会 运行 在 浏览 亏 执 行 引 警 的 JavaScript 和 HIML 之 上 , 所 以 能 用 TensorFlow.js 在 插 
件 中 实现 的 功能 和 标准 网 页 中 能 实现 的 功能 类 似 。 模型 的 安全 考量 和 数据 隐私 考量 也 和 部 署 网 页 
相同 。 通 过 直接 在 浏览 妖 中 推 凯 ， 用 户 的 数据 相对 安全 ， 但 同时 模型 存在 被 用 户 获 取 的 风险 。 

如 果 你 好 奇 TensorFlow.js 到 底 能 在 浏览 妖 插 件 中 实现 什么 样 的 效果 ， 可 以 参见 tfjs-examples 
代码 仓库 中 的 chrome-extension 示例 。 该 示例 会 加 载 一 个 MobileNetV2 模型 ， 然 后 将 它 应 用 到 用 
户 在 浏览 妖 中 选择 的 图 像 上 。 安 法 和 使 用 该 插件 的 方法 和 我 们 之 前 见 过 的 其 他 示例 稍 有 不 同 ， 
为 它 是 插件 ， 不 是 网 站 。 使 用 该 示例 需要 先 安装 Chrome 浏览 器 。" 

首先 ， 必 须 下 载 并 构建 该 浏览 侨 插 件 (extension )。 构建 步 台 和 其 他 示例 类 似 。 


git clone https://github.com/tensorflow/tfjs-examples .git 














cd tfjs-examples/chrome-extension 
yarn 
yarn build 


插件 构建 完成 后 ， 仍 处 于 未 压缩 状态 。 下 一 步 是 在 Chrome 浏览 需 中 加 载 它 。 在 浏览 大 中 跳 
转 到 chrome://extensions 页 面 ， 开 局 开发 者 模式 ， 然 后 单 击 “Load unpacked” 按 钮 ( 见 图 12-4 )。 
这 会 在 浏览 硕 中 打开 一 个 文件 选择 的 对 话 窗 。 必 须 选 择 chrome-extension 文件 夹 下 生成 的 dist 文 
件 夹 ， 即 包含 manifest.json 文件 的 文件 夹 。 





QD 较 新 的 微软 Edge 浏览 需 也 提供 了 路 浏览 需 加 载 插件 的 支持 。 
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三 Extensions Q Developer mode 星 





Load unpacked Pack extension Update 


固 Your browser is managed by your organization 


A TF.js mobilenet in a Chrome extension 0.0.0 


"© Classify images right in your browser using 
TensorFlow.js and mobilenet. 


ID: kkokhmpamjfkaobkhofabjmflebofofm 
Inspect views background page 


Details Remove CGC 0 





图 12-4 在 开发 者 模式 下 加 载 TensorFlow.js 版 MobileNet 的 Chrome 插件 


插件 安装 完成 后 就 可 以 在 浏览 瘟 中 分 类 图 像 了 。 任意 导航 到 一 些 含有 图 像 的 网 站 , 例如 可 以 
进入 谷歌 的 图 像 搜索 页 面 ， 并 输入 tiger (老虎 ) 一 词 。 在 你 想 分 类 的 图 像 上 单 击 右键 。 在 弹出 的 
菜单 中 ， 你 会 看 到 一 个 名 为 “Classify Image with TensorFlow.js”( 用 TensorFlowjs 分 类 图 像 ) 的 
选项 。 单 击 这 个 选项 就 会 触发 MobileNet 檬 型 对 图 像 进 行 分 类 。 插件 会 将 分 类 结果 标注 在 图 像 上 
( 见 图 12-5 )。 





Coogle tger QQ vaQ :3@ 


QAl 回 Images 国 News 加 Videos 四 Books  : More Settings Tools 局 \ Collections SafeSearchv 


@ wallpaper 对 cartoon white drawing 学 cute 从 baby @ roaring 通 > 


sgCOlolreF 
六 NI tiger tr 
SEE Panthnera mt Pamtherkea, 
sn -> a . # -全 
NSOeRes thtis! ‘G's tig vis 
, > We 
(Xo NA OKOAY, Wr A4 了 


Tiger - Wikipedia Tiger | Species | WWF Tigers Than There Are in the Wild ... How a tiger transforms into a man-eater . 











fe) 和 ER 。 IF 和 
昌 刘 geF tigen GE 


Pamthera 


sxy 己 anthiera Pantheya 
tigril 了 


ptigris' tigiis 汪 入 


bb 





tigers in world could help save them .. Tigers | Animals | Bali Safari Park New at the Zo00: Amur Tiger Nikita ... Amur Tiger | Our Animals |1.. 


图 12-5 用 TensorFlow.js 版 MobileNet 的 Chrome 插件 分 类 网 页 中 图 像 的 示例 





382 第 12 章 模型 的 测试 、 优 化 和 部 署 





如 果 要 和 件 载 该 插件 ， 在 插件 页 面 单 击 “Remove”( 移 除 ) 按钮 即 可 ( 见 图 12-4 )。 还 可 以 右 
键 单 击 浏 览 硕 右上 角 的 插件 图 标 ， 然 后 选择 染 单 中 的 “Remove from Chrome”( 从 Chrome 中 移 
除 ) 选项 。 

注意 , 在 浏览 器 插件 中 运行 的 模型 和 网 页 中 运行 的 模型 一 样 ， 都 能 够 利用 硬件 加 速 ， 并 且 使 
用 的 代码 也 大 同 小 异 。 模 型 是 使 用 tf.1oadqGraphModqel (...) 方 法 从 一 个 对 应 的 URL 加 载 的 。 
预测 则 是 通过 我 们 已 经 很 熟悉 的 model .Drealet API 实现 的 。 因此 ， 可 以 相对 轻松 地 将 
已 部 署 到 网 页 中 的 技术 和 概念 验证 代码 移植 到 浏览 需 搬 件 中 。 





12.3.4 ”部 署 到 基于 JavaScript 的 移动 端 应 用 程序 


对 于 很 多 产品 而 言 , 加 面 端 浏览 器 的 受众 群体 太 小 ,而 移动 端 浏览 妖 又 无 法 提供 用 户 期 竺 的 
流畅 的 、 精 致 的 、 高 度 定制 的 用 户 体验 。 开 发 这 类 产品 的 团队 往往 不 得 不 面 对 一 个 困境 : 管理 各 
个 客户 端的 、 用 不 同 语言 写成 的 代码 库 。 一 般 而 言 ， 这 些 代码 库 同 时 包括 JavaScript 写 的 Web 应 
用 程序 代码 、Java 或 Kotlin 写 的 安 卓 代码 ， 以 及 























oe .党 sccepP ooyo 
Objective C 或 Swift 写 的 iOS 代码 。 虽 然 非 常 大 的 商 国人 = 
业 集团 可 以 支撑 这 样 的 开销 ,但 越 来 越 多 的 开发 者 开 本 
始 选择 利用 跨 平台 开发 框架 ,在 不 同 部 署 平台 上 尽 可 Row 9 as on 
能 地 复 用 代码 。 


像 React Native、Ionic、Flutter 和 谢 进 式 Web 应 
用 程序 ( Progressive Web App, PWA ) 这 类 鉴 平台 应 
用 程序 框架 ,让 你 可 以 用 同一 种 编程 语言 编写 应 用 程 
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序 的 大 部 分 代码 ,然后 将 应 用 程序 的 核心 功能 编译 成 

符合 各 个 平台 原生 体验 的 应 用 程序 ,这 样 就 能 够 达到 Results 

用 户 预 期 的 视觉 效果 、 感 观 和 性 能 。 跨 平台 的 语言 或 Egyptian cat 0.7930017709732056 
四 nn We To tabby, tabby cat 0.04978745058178902 
运行 时 可 以 解决 很 多 业务 逻辑 和 布局 层面 的 问题 ,在 lynx, catamount 0.034476689994335175 


此 基础 上 进一步 与 原生 平台 相 结合 ,就 能 在 原生 环境 
中 实现 标准 化 的 视觉 歼 有 末 和 感 观 。 网 上 已 经 有 无 数 的 
博客 和 视频 讲解 如 何 选 择 合适 的 路 平台 应 用 程序 开 
发 框架 , 故而 就 不 在 此 获 述 了 。 本 广 将 聚焦 于 其 中 一 
个 流行 的 框架 : React Native。 图 12-6 中 展示 了 一 个 
极 简 的 React Native 应 用 程序 ， 其 中 运行 了 一 个 


MobileNet 模型 。 注 意图 中 并 没有 显示 浏览 硕 标 志 性 = 
的 顶部 地 址 栏 。 尽 管 这 个 简单 的 应 用 程序 不 含 任何 ME I 
UI 元 于 ， 但 是 如 果 有 的 话 ， 你 会 看 到 它们 符合 安 早 图 12-6 用 React Native 构建 的 原生 安 齐 应 


平台 的 原生 视觉 效果 ,该 应 用 程序 在 i0S 平台 上 也 会 用 程序 的 截图 ， 其 中 运行 着 一 个 
展现 出 和 iOS 平台 一 臻 的 视觉 效果 。 TensorFlow.js 版 MobileNet 模型 
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值得 庆 和 对 的 是 ,React Native 内 置 的 JavaScript 运行 时 对 TensorFlow.js 有 着 原生 支 持 ， 因 此 无 
须 任 何 特殊 的 修改 即 可 使 用 ,截至 2019 年 12 月 ,tfjs-react-native 包 还 在 整个 发 布 流程 的 alpha( 最 
初期 ) 阶段 , 但 它 已 经 能 通过 expo-gl 来 提供 基于 WebGL 的 GPU 加 速 文 持 。 引 入 tfjs-react-native 
包 的 代码 如 下 。 


import * as tf from '@Qtensorflow/tfjs'; 
import '@tensorflow/tfjs-react-native'; 


该 软件 包 还 提供 了 一 个 特殊 的 API， 可 以 在 移动 应 用 程序 中 加 载 和 保存 模型 资源 。 
代码 清单 12-2 ”在 用 React Native 构建 的 移动 应 用 程序 中 加 载 和 保存 模型 的 示例 


import * as tf from '@tensorflow/tfjs'; 
import {asyncStorageIO} from '@tensorflow/tfjs-react-native'; 





async trainSaveAndLoad() { 
const model = await train(); 
awalt modqel.save (asyncStorageIO ( 将 模型 保存 到 AsyncStorage 中 。AsyncStorage 
‘Custom-model-test')) 是 一 个 在 应 用 程序 中 全 局 可 用 的 键 - 值 对 系统 
model.predict (tf.tensor2d([5], [1, 1])) .print().; 


const loadedModel = 
await tf.loadLayersModel (asymncStoradeIO ( 
模型 
CUStLtOom-modqe]-test ' ) ) ，; 从 Asyncstorage 加 载 模型 


loadedModel.predict (tf.tensor2d([5], [1, 1])) .print(); 
} 


尽管 用 React Native 开发 原生 应 用 程序 仍 需 要 学 习 一 些 新 工具 ， 例 如 安 日 的 Android Studio 
和 iOS 的 XCode, 但 相 较 于 下 接 进行 原生 开发 而 言 , 和 学习 曲线 还 是 平缓 得 多 。 这些 跟 平 台 混 合 开 
发 框架 都 和 TensorFlow:js 兼 容 。 这 意味 痢 多 个 部 署 平台 可 以 共用 机 器 学 习 的 逻辑 , 使 我 们 无 须 为 
每 个 硬件 体系 单独 开发 、 维 护 和 测试 机 需 学 习 模 型 的 每 个 版 本 。 这 无 疑 是 想 要 在 移动 端 文 持原 生 
应 用 程序 体验 的 开发 者 的 福音 ! 但 如 果 想 要 开发 果 面 端的 原生 应 用 程序 ， 该 怎么 办 呢 ? 












































12.3.5 ”部署 到 基于 JavaScript 的 跨 平 台 桌 面 端 应 用 程序 


就 像 使 用 React Native 能 开发 器 平台 的 原生 应 用 程序 一 样 ， 使 用 Electron.js 这 样 的 JavaScript 
框 染 能 开发 器 平台 的 时 面 问 应 用 程序 。 在 这 类 框架 的 帮助 下 ， 只 需要 编写 一 次 代码 ， 就 可 以 将 应 
用 程序 部 蜀 到 各 个 主流 加 面 六 操作 系统 ,包括 macOS、Windows 和 Linux 的 主要 发 行 版 。 这 极 大 
地 人 简化 了 传统 的 开发 流程 , 因为 根据 传统 流程 , 开发 者 需要 针对 每 个 互 不 兼容 的 操作 系统 单独 维 
护 一 登 代 人 码 。 以 Electron.js(〈 领 完 的 果 面 端 跨 平台 开发 框 染 ) 为 例 。 它 使 用 Node.js 作为 文 撑 应 用 
程序 主 进 程 运行 的 虚拟 机 ， 用 户 界面 部 分 使 用 的 则 是 Chromium ( 一 个 功能 齐全 但 轻 量 的 Web 浏 
览 希 ， 和 谷歌 Chrome 共享 很 大 一 部 分 代码 )。 

Electron.js 也 和 TensorFlow.js 兼容 。 切 S-examples 代码 仓库 中 含有 一 个 展示 这 种 兼容 性 的 简单 
示例 ， 位 于 electron 文件 夹 下 。 它 诠释 了 如 何在 基于 Electron.js 的 时 面 喘 应 用 中 部 署 用 于 推断 的 
TensorFlow.js 模型 。 该 应 用 允许 用 户 在 文件 系统 中 搜索 含有 一 个 或 多 个 关键 词 的 图 像 文 件 (参见 
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图 12-7 中 的 截图 )。 在 搜索 图 像 文 件 的 过 程 中 ， 应 用 会 使 用 TensorFlow.js 版 的 MobileNet 模 型 对 
一 个 文件 夹 中 的 图 像 进 行 推断 。 

尽管 应 用 程序 本 喘 很 简单 , 但 它 展示 了 将 TensorFlow.js 模型 部 署 到 Electron.js 时 的 一 个 重要 
考量 : 对 计算 环境 的 选择 。Electron.js 应 用 程序 同时 运行 在 基于 Node.js 的 后 端 进程 和 基于 
Chromium 的 前 问 进 程 上 。TensorFlow.js 可 以 在 这 两 个 环境 的 任意 一 个 中 运行 。 因 此 ， 同 一 个 模 
型 既 可 以 运行 在 应 用 程序 的 类 Node 后 端 进程 上 ， 也 可 以 运行 在 类 浏览 硕 的 前 端 进 程 上 上 。 如 果 选 
择 部 团 到 后 端 进程 ， 可 以 使 用 @tensorflow/tfjs-node 包 ; 前 端 环境 则 可 以 使 用 @tensorflovwytfs 包 
( 见 图 12-8 )。 示例 应 用 程序 的 图 形 界面 中 还 有 一 个 勾 选 框 , 可 以 用 它 在 后 端 和 前 端 推 其 模式 间 切 
换 ( 见 图 12-7 )。 不 过 在 用 Electron.js 和 TensorFlow.js 编写 的 实际 应 用 程序 中 ， 通 常 还 是 需要 提 
前 选择 一 个 环境 作为 部 署 的 目标 。 稍 后 会 介绍 上 述 两 个 选项 各 目的 利 浆 。 


TensorFlow.js: Electron Demo 


























File Edit View Window Help 


What to search for? (Try tiger, burrito, rose, ...) 


Turtle, ship 


[> SEARCH IN FILES.. 品 SEARCH IN FOLDERS 


口 Classify images using frontend model (slower) 


一 turtle ship 





。 loggerhead, loggerhead turtle, Caretta caretta: » pirate, pirate ship: 0.706 
0.752 。 drilling platform, offshore rig: 0.230 
* leatherback turtle, leatherback, leathery turtle, s* Schooner: 0.035 


Dermochelys coriacea: 0.231 » Seashore, coast, seacoast, sea-coast: 0.020 
= puffer, pufferfish, blowfish, globefish: 0.013 = Crane: 0.005 








图 12-7 用 Electronjjs 编写 的 时 面 问 应 用 程序 的 截图 。 它 的 内 部 艇 入 了 一 个 TensorFlow.js 
模型 。 该 示例 程序 位 于 ts-examples/electron 文件 夹 中 


如 图 12-8 所 示 ， 选 择 不 同 的 计算 环境 会 导致 深度 学 习 模 型 使 用 不 同 的 硬件 进行 计算 。 基 于 
(@tensorflow/tfjs-node 的 后 端 部 署 会 将 工作 负 谷 分 配给 CPU ， 利 用 多 线程 、 文 持 SIMD 的 
libtensorflow 库 进 行 计算 。 由 于 后 端 环 境 没 有 资源 限制 , 这 种 基于 Node.js 的 部 署 一 般 比 前 端 部 署 
的 性 能 更 好 , 并 且 可 以 容纳 体积 更 大 的 模型 。 但 这 种 部 署 方式 也 有 一 个 很 大 的 浆 端 : 它 会 导致 软 
件 的 体积 变 得 非常 大 ， 这 是 libtensorflow 上 自身 庞大 的 体积 造成 的 (对 切 s-node 而 言 ， 即 使 是 压缩 
后 ， 也 会 占 约 50MB 的 空间 )。 
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如 采 将 模型 部 署 到 前 端 ， 次 度 学 习 的 工作 负 谷 就 会 分 配给 WebGL。 对 于 小 到 中 等 体积 的 模 
型 ,或 者 推断 速度 不 是 关键 的 场景 ,这 种 方法 是 可 取 的 ， 因 其 能 使 软件 更 为 轻 量 。 同 时 ,得 益 于 
便 件 对 WebGL 的 广泛 支持 ， 对 于 很 多 GPU 而 言 ， 它 可 以 开 箱 即 用 。 

图 12-8 中 所 展示 的 另 一 个 关键 点 是 ， 计 算 环 境 的 选择 和 加 载 与 运行 模型 的 JavaScript 代码 ， 
这 两 者 可 以 区 别 对 待 。 这 是 因为 无 论 选择 何 种 计算 环境 都 可 以 使 用 相同 的 API。 示例 应 用 程序 中 
清楚 地 展示 了 这 一 特性 。 在 应 用 程序 中 ， 同 一 个 模块 ( electron/image_classifier.js 文件 定义 的 
ImageClassifier 模块 ) 既 可 以 在 后 端 执 行 推 岂 任 务 ， 也 可 以 在 前 端 执行 推 电 任 务 。 还 要 指出 
的 是 , 尽管 三 s-examples/electron 示例 只 展示 了 推断 部 分 , 但 你 当然 还 可 以 在 Electronjs 应 用 程序 
中 用 TensorFlow.js 实现 深度 学 习 的 其 他 环节 ， 包 括 模型 的 创建 和 训练 (例如 迁移 学 习 )。 
















他 Chromium 浏 览 器 















Electron .js 演 染 器 进程 
应 用 程序 层 (Chromium ) 
TensorFlow.js 共享 的 TensorFlow.js 

API 层 用 户 模式 代码 

TensorFlow.js tfjs-node TensorFlow.js 
司 崇 层 libtensorflow WebGL 后 六 


计算 硬件 层 (es 


CPU GPU 


图 12-8 用 TensorFlowjjs 在 基于 Electron.js 的 蝎 面 端 应 用 程序 中 进行 加 速 次 度 学 习 的 
架构 网 。 在 后 端的 主 进程 或 浏览 锅 的 泻 染 进程 中 , 可 以 使 用 不 同 TensorFlow.js 
计算 环境 实现 深度 学 习 。 不 同 的 计算 环境 允许 模型 在 不 同 的 硬件 上 运行 。 但 
无 论 选 择 哪 种 计算 环境 ， 加 载 、 定 义 和 运 行 次 度 学 习 模 型 的 TensorFlow.js 代 
码 基本 是 一 样 的 。 图 中 用 第 尖 表示 库 隐 数 以 及 其 他 函数 的 调用 














12.3.6 ”部 署 到 微 信和 其 他 基于 JavaScript 的 移动 端 插件 系统 


在 有 些 场景 中 ,主要 的 移动 应 用 程序 分 发 平台 可 能 既 不 是 安 卓 的 应 用 商店 , 也 不 是 iOS 的 应 2 
用 商店 ， 而 是 少数 “超级 应 用 程序 "。 这 些 超级 应 用 程序 允许 第 三 方 插件 在 为 其 量 身 定制 的 第 一 
方 环境 中 运行。 
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这 些 超级 应 用 程序 中 的 一 部 分 来 日 中 国 的 几 个 科技 巨头 ,比较 出 名 的 是 腾讯 的 微 信 、 阿 里 巴 
巴 的 支付 宝 和 百度 的 移动 端 搜 索 程序 。 它 们 都 使 用 JavaScript 作 为 开发 第 三 方 插件 的 主要 技术 。 
这 也 使 TensorFlow.js 成 了 在 这 些 平台 上 部 署 机 楷 学 习 模 型 的 不 二 之 选 。 但 是 , 这 些 移动 应 用 程序 
的 插件 系统 提供 的 API 和 原生 JavaScript 的 API 有 所 不 同 。 因 此 ， 如 果 要 部 署 到 这 些 平 台 ， 就 免 
不 了 一 些 人 额外 的 学 习 和 投入 。 

本 布 中 以 微 信 为 例 。 微 信和 是 中 国 最 党 用 的 社交 应 用 程序 之 一 。 它 有 超过 10 亿 名 月 活跃 用 户 。 
在 2017 年, 微 信 发 布 了 小 程序 , 一 个 用 JavaScript 在 微 信 系统 下 创建 迷你 应 用 程序 的 平台 。 用 户 
可 以 随时 在 微 信 中 分 至 并 安装 这 些 迷 你 应 用 程序 ， 它 也 因此 获得 了 巨大 的 成 功 。 截 至 2018 年 的 
第 二 季度 ， 微 信 已 经 有 超过 100 万 个 小 程序 和 超过 6 亿 和 名 日 活用 户 。 同 时 ,还 有 超过 150 万 名 开 
发 者 在 为 它 开 发 应 用 程序 。 这 些 成 果 要 部 分 归功 于 JavaScript 的 流行 。 

微 信 小 程序 的 API 使 开发 者 可 以 轻松 地 使 用 手机 的 各 种 传 感 锅 ,包括 摄像 头 、 麦 克 风 、 加 速 
计 、 陀 螺 仪 、GPS 等 。 然 而 ， 小 程序 API 提供 的 机 需 学 习 能 力 非 常 有 限 。 使 用 TensorFlow.js 作为 
小 程序 的 机 怖 学 习 解 决 方案 有 几 大 优势 。 以 前 ， 如 有 果 开 发 者 想 在 应 用 程序 中 通信 机 天 学 习 能 
则 需要 在 服务 硕 端 或 云端 夯 准 备 一 僚机 需 学 习 系 统 用 于 推 新 。 这 束 将 大 部 分 小 程序 开发 者 挡 在 了 
构建 和 使 用 机 咒 学 习 技 术 的 门 外 。 对 绝 大 部 分 小 程序 开发 者 而 言 , 在 小 程序 外 部 另 准 备 一 套 机 需 
学 习 系统 超出 了 所 能 承受 的 范围 。 有 了 TensorFlow.js 后 , 束 可 以 直接 在 小 程序 的 原生 环境 中 开发 
机 融 学 习 系 统 。 此 外 ,因为 这 是 一 种 客户 端 解决 方案 , 所 以 它 还 有 助 于 减 小 网 络 流量 压力 并 改善 
网 络 延迟 。 同 时 ， 它 也 可 以 利用 WebGL 进行 GPU 加 速 。 

TensorFlow.]S 背后 的 团队 创建 了 一 个 微 信 小 程序 插件 。 你 可 以 参考 它 ， 为 自己 的 小 程序 也 引 
入 TensorFlow.js (参见 图 灵 社 区 : http://ituring.cn/book/2813 )。 该 代码 仓库 还 包含 男 一 个 示例 小 
程序 ,可 以 利用 PoseNet 模 型 和 手机 摄像 头 标注 人 的 位 置 和 姿势 . 它 使 用 微 信 新 引入 的 WebGL API 
加 速 TensorFlow.js 的 运行 。 对 绝 大 部 分 应 用 程序 而 言 ， 如 果 不 能 使 用 GPU， 模 型 的 运行 速度 就 
会 过 慢 。 有 了 这 个 插件 后 ， 微 信 小 程序 就 能 达到 和 移动 端 浏览 仑 中 JavaScript 应 用 程序 相当 的 模 
型 推 呆 速度。 事实 上 ， 我 们 在 实践 中 发 现 ， 微 信 的 传 感 郑 API 性 能 要 比 浏 览 硕 中 的 更 好 。 

截至 2019 年 年 末 , 在 微 信 小 程序 这 样 的 超级 应 用 程序 中 使 用 机 器 学 习 模 型 仍 是 一 个 新 领域 。 
要 想 让 应 用 程序 达到 高 性 能 ， 台 少不了 平台 维护 者 的 第 一 方 文 持 。 但 不 管 怎 样 ， 如 采 你 想 将 应 
用 程序 分 发 到 数 亿 人 的 手中 ,这 仍 是 最 佳 选 择 之 一 ， 因 为 这 些 超级 应 用 程序 就 是 这 部 分 人 群 的 
互联 网 。 


12.3.7 ”部 署 到 单片机 


对 很 多 Web 开发 者 而 言 ， 将 模型 部 普 到 无 界面 的 单 族 机 上 可 能 听 起 来 既 困 难 又 阳 生 。 然 而 ， 
得 益 于 树 每 派 的 成 功 , 开发 和 构建 简单 的 人 硬件 设备 已 经 变 得 史无前例 地 容易 。 单 片 机 是 相对 廉价 
的 部 署 环 境 , 它 无 顷 连 接 到 云 庙 的 服务 需 或 举重 昂贵 的 计算 机 。 单 族 机 可 以 用 于 实现 安全 相关 的 
应 用 程序 、 监 测 网络 流 量 ， 甚 至 还 能 控制 农作物 的 灌溉 一 一 全 看 你 的 想象 力 有 多 丰富 。 

很 多 单片机 都 提供 通用 W/O ( general-purpose input-output, GPIO ) 问 口 。 这 些 剃 口 可 以 用 来 和 
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控制 系统 建立 物理 连接 ， 而 且 通 常 还 装 有 Linux 操作 系统 。 教 师 、 开 发 者 和 黑客 可 以 利用 Linux 
操作 系统 开发 出 各 种 互动 设备 。JavaScript 已 经 成 为 这 些 设 备 的 热门 编程 语言 。 开 发 者 可 以 只 靠 
JavaScript 和 rpi-gpio 这 类 基于 Node.js 的 软件 库 控 制 设备 的 底层 逻辑 。 

为 了 更 好 地 支持 这 些 用 户 ，TensorFlow.js 目前 为 这 些 基 于 ARM 架构 的 艇 入 式 设 备 准 备 了 两 
种 运行 时 : 协 s-node (CPU 版 " ) 和 二 s-headless-nodegl ( GPU 版 )。 整 个 TensorFlow.js 库 部 依托 
设备 上 的 这 两 种 运行 时 运行 。 开 发 者 可 以 直接 在 这 类 便 件 设备 上 用 开 箱 即 用 的 模型 进行 推 新 , 或 
训练 目 己 的 模型 。 

近期 推出 的 设备 ， 如 NVIDIA Jetson Nano 和 树 每 派 4， 都 搭载 了 含有 现代 岁 形 处 理 天 的 厂 上 
系统 ( system-on-chip, SoC )。TensorFlow.js 底层 使 用 的 WebGL 代码 可 以 利用 这 些 设备 上 的 ry 
加 速 计算 。 无 界面 的 WebGL 软件 包 (ts-backend-nodegl ) 使 TensorFlow.js 代码 可 以 纯粹 依 徘 这 
些 设备 上 的 GPU 加 速 运行 ( 见 图 12-9 )。 通 过 让 GPU 分 担 TensorFlowjs 的 工作 负荷 ， 开 发 者 可 
以 解放 CPU 的 算 力 ， 让 它 同 时 控制 设备 的 其 他 部 分 。 








全 号 国 国 vocnonr -no 国 PO 


- gl .VERSION: OpenGL ES 3.6 (ANGLE 2.1.0.a6992f2f25 
- gL.RENDERER: ANGLE (Broadcom, V3 2, OpenG 

- Loading model... 

- Mobilenet load: 18652.192693ms 

- Coldstarting model... 
kk 

- Running inference (166x) ... 

= Mobilenet inference: (i606x) : 695.8330816399998ms 
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图 12-9 ”TensorFlow.js 在 树 每 派 4 上 用 无 界面 版 的 WebGL 运行 MobileNet 模 型 


模型 安全 和 数据 安全 是 基于 单片机 的 部 署 的 两 大 优势 。 计 算 和 执行 都 是 直接 在 设备 上 进行 
的 。 这 意味 着 它们 完全 在 设备 拥有 者 的 掌控 中 。 即 使 设备 被 镭 取 ， 仍 能 通过 加 密 手 段 保 护 模 型 。 

对 JavaScript 而 言 一 一 更 具体 地 说 ， 对 TensorFlow.js 而 言 一 一 基于 单片机 的 部 署 仍 是 一 个 非 
各 新 的 领域 。 但 它 解 锁 了 各 种 它 上 只 有 独特 优势 ， 而 别 的 部 署 方案 又 不 适合 的 应 用 场景 。 











Q 如 果 你 想 用 ARMNEON 加 速 CPU 的 运行 ， 应 该 使 用 tfjs-node 运行 时 。 它 同时 支持 ARM32 和 ARM64 两 种 架构 。 
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12.3.8 ”部 署 环 境 的 总 结 

12.3 万 中 介绍 了 几 种 不 同 的 部 署 方式 。 它 们 可 以 助 你 将 基于 TensorFlow.js 的 机 和 带 尝 习 系 统 推 
广 给 你 的 用 户 和 群体 ( 表 12-4 中 总 结 了 这 些 部 署 方式 ), 希望 在 介绍 这 些 部 署 方式 的 同时 ， 我们 激 
发 了 你 的 想象 力 ， 让 你 开始 民 避 TensorFlow.js 的 各 种 酷 炫 应 用 ! JavaScript 的 软件 生态 蕴藏 着 惊 
人 的 洲 力 。 在 不 久 的 将 来 ， 拥 有 机 天 学 习 能 力 的 系统 会 在 我 们 今天 无 法 想象 的 领域 发 光 发 热 。 


表 12-4 TensorFlow.js 模型 可 部 署 到 的 目标 环境 ， 以 及 各 个 环境 下 可 用 的 硬件 加 速 方案 














部 署 环境 硬件 加 速 支 持 
浏览 硕 WebGL 
Nodejjs 支持 多 线程 和 SIMD 的 CPU， 或 支持 CUDA 的 GPU 
浏览 右 插 件 WebGL 
路 平台 桌面 端 应 用 程序 (例如 Electron ) WebGL、 文 持 多 线程 和 SIMD 的 CPU， 或 文 持 CUDA 的 GPU 
路 平台 移动 端 应 用 程序 (例如 React Native ) WebGL 
移动 端 应 用 程序 的 插件 ( 例如 微 信 小 程序 ) 移动 端的 WebGL 
单片机 (例如 树 每 派 ) GPU 或 ARM NEON 


12.4 延展 阅读 


口 Denis Baylor 等 人 的 文 草 “TFX 一 A TensorFlow-Based Production-Scale Machine Learning 
Platform”，KDD 2017 网 站 。 

口 Raghuraman Krishnamoorthi 的 文 草 “Quantizing Deep Convolutional Networks for Efficient 
Inference—A Whitepaper 。 

口 Rasmus Munk Larsen 和 Tatiana Shpeisman 的 台灯 片 “TensorFlow Graph Optimization”。 


12.5 ”练习 


(1) 在 第 10 章 中 , 我 们 用 MNIST 数据 集训 练 了 一 个 辅助 分 类 希 生 成 式 对 抗 网 络 (ACGAN )。 
它 可 以 生成 指定 类 别 的 仿 MNIST 风格 的 数字 图 像 。 我 们 之 前 使 用 的 示例 位 于 区 s-examples 代码 
仓库 的 mnist-acgan 文件 夹 中 。 训 练 好 的 模型 生成 天 部 分 总 体积 为 10MB， 其 中 绝 大 部 分 属于 以 
32 位 精度 存储 的 模型 权重 。 它 看 起 来 很 适合 用 训练 后 权重 量化 方法 进行 一 些 体积 上 的 优化 ， 从 
而 提升 加 载 速度 。 但 是 在 这 么 做 之 前 , 需要 先 确 保 这 种 量化 不 会 对 模型 的 推 嘲 质 量 造 成 过 大 的 影 
啊 。 分 别 测试 16 位 量化 和 8 位 量化 ， 观 察 这 两 种 量化 是 否 都 是 可 接受 的 优化 方案 。 使 用 12.2.1 
市 介绍 的 tensorflowjs_converter 工具 完成 优化 。 在 评估 生成 的 MNIST 图 像 的 质量 时 ， 你 
会 使 用 哪些 评判 指标 ? 

(2) 部 署 到 Chrome 插件 中 的 TensorFlow.js 模型 具有 控制 浏览 大 本 号 的 独特 优势 ,在 第 4 章 的 
语音 口令 示例 中 , 我 们 展示 了 如 何 用 卷 积 模型 识别 单词 的 音频 数据 。 试 看 将 语音 口令 识别 模型 封 
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装 成 一 个 浏览 硕 插 件 ， 然 后 训练 它 识别 “nexttab”( 下 个 标签 页 ) 和 “previous tab”( 上 个 标签 页 ) 
这 两 个 口令 。 训 练 完成 后 ， 葡 试 使 用 该 搬 件 在 浏览 需 各 个 标签 页 间 切 换 。 

(3) 信息 栏 12-3 描述 了 测量 TensorFlow.js 模 型 的 predict () 方 法 (推断 方法 ) 执行 耗 时 的 正 
确 方 法 ， 以 及 一 些 需要 注意 的 点 。 在 TensorFlow.js 中 加 载 一 个 MobileNetV2 模型 (作为 参考 ,可 
以 借鉴 5.2 节 中 位 于 simple-object-detection 文件 夹 下 的 简单 目标 检测 示例 )， 并 计算 它 的 
predict () 方 法 的 执行 耗 时 。 

a. 第 一 步 ， 生 成 一 个 使 用 随机 值 的 、 形 状 为 [1L，224，224，3] 的 图 像 张 量 ， 并 用 信息 栏 
12-3 中 的 步骤 让 模型 对 其 推断 。 分 别 在 两 种 情况 下 测量 模型 的 推 汤 耗 时 ， 一 种 使 用 array () 或 
data() 调 用 ,一 种 不 使 用 。 哪 种 耗 时 更 短 ” 哪 种 测量 方法 是 正确 的 ? 

b. 将 你 认为 正确 的 测量 方法 重复 50 次 ， 然 后 用 切 S-vis 模块 ( 参见 第 7 章 ) 将 每 次 的 执行 耗 
时 画 在 一 张 折 线 图 中 。 从 折线 图 中 可 以 直观 地 感受 测量 耗 时 的 变化 趋势 。 从 图 中 能 否 明显 地 看 出 
前 几 次 测量 结果 和 其 他 测量 结果 不 同 ” 基 于 你 的 观察 , 描述 一 下 在 进行 性 能 测量 前 , 对 模型 进行 
煲 机 或 预 热 的 重要 性 。 

c. 和 任务 a 及 任务 b 不 同 ,将 随机 生成 的 输入 张 量 蔡 换 为 真实 的 图 像 张 量 ( 例如 用 tf .browser. 
fromPixels () 从 HTML 的 img 元 又 获 取 的 图 像 张 量 )， 然 后 重复 任务 b 中 的 测量 。 输 入 张 量 内 
容 的 变化 是 否 对 测量 结果 有 任何 实质 性 影响 ? 

d. 不 同 于 针对 单个 样 例 推 类 〈 批 尺寸 为 1 )， 试 着 将 批 尺 寸 逐渐 增加 到 一 个 较 大 的 数 ， 例 如 
32, 并 记录 下 各 个 批 次 下 的 推断 耗 时 。 平均 推断 耗 时 是 否 随 着 批 尺 寸 的 增加 单调 上 升 ? 这 种 变化 
是 否 为 线性 的 ? 
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口 无 论 是 对 机 需 学 习 代 码 还 是 非 机 需 学 习 代 码 而 言 ， 恨 好 的 测试 层面 的 工程 实践 都 很 重要 。 
然而 ， 要 拒绝 专门 测试 “特殊 示例 ”或 断言 模型 预测 结果 的 “页 金 值 ”的 诱惑 。 应 尽 可 
能 地 测试 模型 的 基本 属性 ， 例 如 输入 和 输出 的 形状 。 此 外 ， 记 住 : 所 有 机 器 学 习 系 统 前 
的 数据 预 处 理 代 码 都 只 是 “普通 ”的 代码 ， 可 以 用 常规 测试 方法 来 测试 。 

口 优化 模型 的 下 载 速 度 和 推断 速度 对 于 TensorFlow.js 模型 在 客户 端的 成 功 部 署 非常 关键 。 
利用 tensorflowjs_converter 包 的 训练 后 权重 量化 功能 ， 可 以 缩减 模型 的 总 体积 。 
在 有 些 场景 中 ， 这 不 会 对 模型 的 推断 准确 率 产 生 任 何 肉眼 可 见 的 影响 。tensorflowjs_ 
converter 的 GraphModel 转换 功能 可 以 通过 运算 融合 这 样 的 计算 图 转换 加 速 模型 的 推 
新 。 在 将 TensorFlow.js 模型 部 署 到 生成 环境 前 ， 应 尽 可 能 考虑 测试 并 使 用 这 两 种 模型 优 
化 技巧 。 

口 模型 训练 和 优化 完毕 并 不 代表 机 天 学 习 应 用 程序 就 完成 了 。 你 还 需要 将 它 集成 到 实际 的 
产品 中 。TensorFlow.js 应 用 程序 最 稼 见 的 部 署 方式 是 Web 环境 ， 但 这 只 是 诸多 部 署 选 项 
中 的 一 个 。 每 个 部 署 选 项 都 有 自己 的 独特 优势 。TensorFlow.js 模型 可 以 在 浏览 融 插 件 、 原 
生 移 动 端 应 用 程序 、 原 生 果 面 问 应 用 程序 和 树 每 派 这 样 的 单片机 上 运行 。 





















































口 回顾 AI 和 深度 学 习 中 的 基本 概念 。 

口 概览 本 书 介绍 的 各 种 深度 学 习 算 法 及 其 使 用 场景 ， 以 及 在 TensorFlow.js 中 的 实现 方法 。 
口 TensorFlow.js 生态 中 的 预 训练 模型 。 

口 深度 学 习 当 前 的 局 限 性 ， 以 及 对 其 未 来 数 年 发 展 趋势 的 展望 。 

口 关于 如 何 精进 你 的 次 度 学 习 知 识 ， 并 保持 芭 跟 座 度 学 习 领 域 的 发 展 步伐 的 一 些 建 议 。 




















这 是 本 书 正 文部 分 的 最 后 一 章 。 在 之 前 的 各 曹 中 ,我们 以 TensorFlow.]s 为 载体 ,凭借 目 己 的 
不 懈 努 力 , 届 虎 了 当前 次 度 学 习 领 域 的 全 钥 。 在 这 一 过 程 中 , 你 应 该 收获 了 不 少 新 知识 和 新 技能 。 
现在 是 时 候 站 在 更 高 的 层面 , 概览 深度 学 习 的 全 貌 ， 并 回顾 其 中 一 些 最 为 关键 的 概念 。 本 草 在 回 
顾 之 前 学 到 的 核心 概念 的 同时 , 还 会 进一步 拓宽 你 的 眼界 , 使 你 不 局 限于 目前 所 学 的 这 些 相 对 基 
本 的 概念 。 我 们 希望 帮助 你 做 好 充分 的 准备 ， 让 你 能 够 充满 自信 地 独立 开始 下 一 段 旅程 。 

本 章 首先 会 概览 本 书 中 的 一 些 关 键 知 识 点 。 这 可 以 帮 你 贡 固 一 些 已 经 学 会 的 基本 概念 。 其 次 
会 概 哆 深度 学 习 的 一 些 主要 的 局 限 性 。 要 想 用 好 一 个 工具 ， 你 不仅 应 该 知道 它 能 做 什么 ,还 应 该 
知道 它 不 能 做 什么 。 本 章 的 末尾 还 会 列 出 一 些 学 习 资 源 , 你 可 以 利用 它们 进一步 精进 自己 关于 深 
度 学 习 和 基于 JavaScript 的 AI 生态 的 知识 和 技能 ， 并 保持 与 时 俱 进 。 


13.1 回顾 关键 概念 


本 市 将 简要 总 结 本 书 介 绍 的 关键 概念 。 我 们 会 先 概览 整个 AI 领域 的 现状 ， 然 后 解答 为 何 结 
合 深 度 学 习 和 JavaScript 可 以 带 来 独特 且 令 人 兴奋 的 新 机 遇 。 



































13.1.1 Al 的 各 种 策略 


首先 ， 省 度 学 习 和 AI ( 甚至 机 各 学 习 ) 的 意义 都 有 所 不 同 。AI 是 一 个 历史 悠久 且 涉 猪 广泛 
的 领域 , 一 般 可 以 定义 为 “任何 答 试 目 动 化 认 知 过 程 的 行为 ” 换言之 , 它 是 对 思考 的 目 动 化 。 
它 可 以 小 到 目 动 化 处 理 Excel 表格 ,也 可 以 大 到 发 明 能 走 、 能 说 话 的 人 形 机 各 人 。 
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机 器 学 习 是 AI 的 诸多 子 领域 之 一 。 它 的 目标 是 仅 徘 对 训练 集 的 学 习 ， 日 动 开 发 出 名 为 模型 
的 程序 。 这 一 将 数据 转换 为 程序 (或 者 说 模型 ) 的 过 程 叫 作 学 习 。 尺 管 机 可 学 习 历 史 已 人 入 ( 至 少 
儿 十 年 ), 但 它 在 20 世纪 90 年 代 才 真正 开始 在 实际 应 用 中 获得 广泛 使 用 。 

深度 学 习 是 很 多 机 侣 学 习 形式 中 的 一 种 。 在 深度 学 习 中 , 模型 由 多 个 步 又 组 成 ， 其 中 每 个 步 
又 阁 是 对 数据 的 一 种 转换 ， 并 且 一 个 接 春 一 个 〈 这 也 是 “深度 ”一 词 的 由 来 )。 这些 转换 运算 被 
封 交 在 名 为 层 的 模块 中 。 座 度 学 习 模型 一 般 是 很 多 层 的 受 加 ， 或 者 次 很 多 层 组 成 的 图 。 这 些 层 的 
参数 叫 作 权重 。 权 重 是 一 种 帮助 层 把 输入 转换 成 输出 的 数值 , 训练 过 程 中 会 不 断 地 更 新 它们 。 模 
型 在 训练 中 学 到 “知识 ”会 被 保存 在 权重 中 ,因此 训练 过 程 的 主要 目标 就 是 为 这 些 权重 寻找 一 组 
合适 的 值 。 

尽管 深度 等 习 只 是 机 带 学 习 语 多 来 略 中 的 一 种 ， 但 它 的 突破 性 发 展 使 其 他 宁 略 部 相形 见 强 。 
接 下 来 就 快速 回顾 一 下 深度 学 习 成 功 背 后 的 原因 。 


























13.1.2 ”深度 学 习 从 各 种 机 咽 学 习 荣 略 中 脱 守 而 出 的 原因 


短 短 数 年 间 , 族 度 学 习 在 诸多 任务 上 取得 了 史无前例 的 突破 。 以 往 人 们 认为 用 计算 机 解决 这 
些 任务 是 极为 困难 的 ， 其 中 机 带 感 知 型 任务 尤其 如 此 。 这 类 任务 包括 从 网 像 、 音 频 、 视 频 以 及 其 
他 感知 型 数据 中 , 以 足够 高 的 准确 率 提 取 有 用 的 信息 。 然 而 在 当下 , 只 要 有 足够 多 的 训练 数据 ( 具 
体 而 言 ， 有 标签 的 训练 数据 )， 就 可 以 提取 出 任何 人 类 能 识别 的 信息 ， 有 时 计算 机 的 准确 率 甚 至 
会 超过 人 类 。 因 此 ， 有 时 人 们 会 说 ,深度 学 习 已 经 很 大 程度 上 “解决 了 感知 问题 "， 尺 管 这 里 所 
说 的 感知 问题 是 狭义 上 的 感知 问题 〈 深度 学 习 局 限 性 的 相关 内 容 参 见 13.2.5 节 )。 

由 于 深度 学 习 在 技术 上 史无前例 的 成 功 , 它 以 一 己 之 力 市 来 了 第 三 次 、 也 是 迄今 为 止 最 大 的 
一 次 Al 夏天 (AIsummer )， 也 叫 作 深度 学 习 革 命 。 这 是 因为 在 此 期 间 ，AI 领域 受到 了 极 大 的 天 
注 ,， 并 迎 来 了 史无前例 的 投资 和 热度 。 尽 管 这 次 症 命 是 否 会 在 不 远 的 将 来 结束 ， 以 及 之 后 会 发 生 
什么 还 有 待 讨论 ， 但 有 一 点 是 可 以 肯定 的 : 和 前 几 次 AI 夏天 的 虚火 相 比 ， 这 次 深度 学 习 章 命 有 
很 大 的 不 同 , 因为 它 已 经 为 大 量 的 科技 公司 市 来 了 巨大 的 实质 性 价值 , 包括 实现 人 类 水 平 的 图 像 
分 类 、 目 标 检测 、 语 音 识别 、 智 能 助理 、 目 然 声 言 处 理 、 机 融 翻 详 、 智 能 推荐 、 智 能 芍 驶 等 。 
AI 的 热度 可 能 会 减退 ( 并且 应 该 如 此 ), 但 深度 学 习 仍 会 持续 影响 科技 的 发 展 并 市 来 巨大 的 两 业 
价值 。 从 这 一 角度 来 看 ,深度 学 习 的 发 展 和 互联 网 的 发 展 有 几 分 相似 : 它 可 能 在 发 展 的 初期 会 得 
到 过 度 关 注 ,， 被 人 们 投 以 不 切实 际 的 预期 和 过 量 的 投资 。 但 从 长 期 来 看 , 它 仍 是 一 次 影响 科技 以 
及 我 们 生活 方方面面 的 大 革命 。 

我 们 对 深度 学 习 的 发 展 相 当 乐 观 , 因为 即使 我 们 在 未 来 十 年 没 能 取得 任何 理论 突破 , 仅 是 将 
现 有 的 深度 学 习 技 术 应 用 到 各 个 适用 的 实际 问题 上 , 就 已 经 能 给 很 多 行业 市 来 革命 性 的 变化 (这 
些 行业 包括 广告 、 金 融 、 工 业 目 动 化 、 针 对 残 隐 人 士 的 辅助 技术 等 ) 深度 学 习 被 称 为 车 命 可 育 

副 其 实 。 由 于 经 阐 殴 源 和 人 力 投 入 的 指数 级 增长 ,这 度 学 习 领 域 正 以 不 可 思议 的 速度 持续 演进 
着 。 从 这 个 领域 的 现状 来 看 , 未 来 一 片 光 明 , 尽管 短期 内 的 预期 有 点 过 于 乐观 。 要 完全 发 挥 泊 度 
学 习 的 全 部 潜能 ， 可 能 远 不 止 十 年 。 
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13.1.3 ”如 何 抽 象 地 理解 深度 学 习 


深度 学 习 最 怀 人 的 一 点 就 是 它 的 简单 , 这 是 相对 而 言 的 。 在 它 之 前 的 机 种 学 习 拉 巧 要 复杂 得 
多 , 取得 的 成 果 却 不 如 它 。 十 年 前 , 没 人 能 预知 仅 徘 用 梯度 下 降 训 练 出 的 参数 化 模型 就 能 在 机 带 
感知 问题 上 取得 如 此 不 可 思议 的 成 果 。 现 在 来 看 ， 只 要 参数 化 模型 的 规模 够 大 ,并 且 有 足够 多 的 
有 标签 样 例 ， 取 得 好 的 结 琳 束 没有 什么 困难 的 。 就 像 理 查 德 : 费 曼 对 宇宙 的 评论 一 样 ,，“ 它 并 不 复 
杂 ， 只 是 量 大 罢了 ”。 

在 深度 等 习 中 ,一切 各 可 以 表示 为 数 子 序列 一 一 换言之 , 向量。 可 以 将 同 量 看 作 几 何 空间 中 
的 一 个 点 。 模 型 的 输入 ( 表格、 图 像 、 文 本 等 ) 虱 会 完 被 癌 量化 ,或 者 说 被 转换 为 输入 丫 量 空间 
中 点 的 集合 。 类 似 地 ,目标 (标签 ) 也 会 被 问 量化 ， 并 转换 为 它们 在 目标 丫 量 空间 中 点 的 集合 。 
然后 ， 次 度 神 经 网 络 的 每 一 层 郡 会 对 流 经 它 的 数据 进行 简单 的 几何 转换 。 各 个 神经 层 环 环 相 扣 ， 
共同 形成 了 一 个 由 一 系列 简单 几何 转换 组 合成 的 复 茶 几何 转换 。 这 种 复杂 的 转换 会 尝试 将 输入 癌 
量 空 间 中 的 点 映射 到 目标 癌 量 空间 。 各 个 层 的 权重 会 将 这 种 转换 参数 化 ， 然 后 基于 转换 的 质量 ， 
迭代 式 地 更 新 。 这 种 几何 转换 的 一 个 关键 特征 是 ， 它 是 可 微 (differentiable ) 的 。 这 是 梯度 下 降 
的 一 个 必要 条 件 。 


13.1.4 深度 学 习 成 功 的 关键 因素 


当下 正在 进行 的 深度 学 习 章 命 不 是 一 中 而 就 的 。 相反 ,就 像 其 他 单 合 一样， 它 是 一 系列 因素 
的 合力 所 共同 促成 的 。 深度 学 习 起 初 发 展 得 并 不 快 , 但 达到 临界 点 后 , 它 就 开始 突飞猛进 地 发 展 。 
下 面 是 促使 次 度 学 习 达 到 成 功 的 一 些 关 键 因素 。 

口 逐步 发 生 的 算法 革新 。 前 二 十 年 的 算法 革新 是 零星 发 生 的 。 ” 自 2012 年 起 ， 得 益 于 更 多 
的 研究 投入 ， 深 度 学 习 领 域 开始 高 速 发 展 。™ 

口 大 量 的 有 标签 数据 集 。 这 些 数 据 集 泣 盖 诸多 数据 类 型 ， 包 括 感 知 型 数据 〈 图 像 、 音 频 和 
视频 )、 数 值 型 数据 和 文本 数据 。 这 意味 看 我 们 有 充足 的 数据 来 训练 大 型 模型 。 这 些 数据 
是 消费 互联 网 崛起 的 副产品 。 移 动 设 备 的 普及 和 存储 设备 的 飞速 进步 〈 基 于 摩尔 定律 ) 
进一步 加 速 了 数据 量 的 增长 。 

口 高 速 、 价 格 低廉 的 并 行 计算 硬件。 这 包括 NVIDIA GPU ( 这些 GPU 原本 是 用 于 电子 游戏 
的 ， 但 也 可 以 用 于 并 行 计算 )， 以 及 专 为 次 度 学 习 设 计 的 必 睛 。 

D 一 系列 复杂 的 开源 软件 将 次 度 学 习 的 计算 能 力 普 及 给 广大 开发 者 和 学 生 ， 同 时 隐藏 了 它 
底层 的 巨大 复杂 度 。 这 些 软件 包括 CUDA 语言 、 浏 览 器 的 WebGL API， 以 及 像 
TensorFlow.js、Python 版 TensorFlow 和 Keras 这 样 的 深度 学 习 框 架 ( 这 些 框架 可 以 目 动 进 
行 微 分 计算 ， 并 提供 易 用 的 高 阶 模块 ， 例 如 层 、 损 失 函 数 和 优化 右 )。 深 度 学 习 已 经 未 渐 






















































































中 参见 约克 郡 电视 台 在 1972 年 对 理 查 德 : 费 曼 的 采访 ,，“The World from Another Point of View” 。 

@) 以 Rumelhart、Hinton 和 Williams 等 人 发 明 的 反 向 传播 算法 .LeCun 与 Bengio 发 明 的 卷 积 层 .Graves 和 Schmidthuber 
发 明 的 循环 网 络 为 标志 。 

(3) 研究 成 果 包 括 权重 初始 化 方法 的 改进 、 新 型 激活 因 数 、 丢 弃 法 、 批 标准 化 方法 、 残 差 连接 等 。 
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从 专家 (人 研究 者 、AI 领域 的 研究 生 和 有 和 学术 背景 的 工程 师 ) 独 圣 的 工具 ， 变 成 每 个 程序 员 
都 可 以 使 用 的 工具 。TensorFlowjs 框架 就 是 这 种 趋势 的 一 个 典型 例子 。 它 将 两 个 丰富 且 充 满 
活力 的 生态 JavaScript 的 里 平台 生态 和 快速 演进 中 的 深度 学 习 生 态 结合 到 了 一 起 。 
深度 学 习 技 术 已 经 融入 了 各 种 技术 栈 中 , 这 些 技术 栈 不 同 于 次 度 学 习 诞 生 之 初 所 在 的 各 个 领 
域 (C++ 生态 、Python 生态 和 数值 计算 领域 ) 使 用 的 技术 。 这 印证 了 深度 学 习 章 命 影响 力 的 广度 
与 深度 。 诬 度 学 习 与 JavaScript 生态 的 结合 ， 即 本 书 的 主题 ， 正 是 一 个 绝 佳 的 例子 。 下 一 万 中 将 
回顾 为 何 结 合 深度 学 习 和 JavaScript 能 市 来 新 的 机 遇 和 可 能 性 。 


13.1.5 ”JavaScript 深度 学 习 市 来 的 新 应 用 和 新 机 遇 


训练 次 度 学 习 模 型 的 主要 目的 是 让 用 户 能 够 使 用 它们 。 对 于 很 多 输入 数据 类 型 ,例如 来 自 网 
络 摄像 头 的 图 像 、 来 目 麦 克 风 的 声音 ， 以 及 来 目 用 户 的 文本 和 手势 ,数据 是 直接 在 客户 端 生成 并 
使 用 的 。 就 客户 端 编 程 而 言 ，JavaScript 可 能 是 最 成 熟 且 无 处 不 在 的 语言 和 生态 。 用 JavaScript 
编写 的 代码 可 以 被 部 署 到 包括 网 站 在 内 的 各 种 设备 和 平台 上 。 浏览 各 的 WebGL API 使 JavaScript 
可 以 在 各 种 GPU 上 进行 跨 平 台 的 并 行 计算 。TensorFlow.js 也 利用 了 这 一 特性 。 这 使 JavaScript 成 
了 部 署 深 度 学 习 模 型 的 一 个 理想 选择 。TensorFlow.js 还 提供 了 一 个 转换 人 工具， 它 可 以 助 你 把 热 
门 的 Python 框架 (例如 TensorFlow 和 Keras ) 中 训练 出 的 模型 转换 成 适用 于 浏览 问 的 格式 ， 这样 
就 可 以 将 其 部 署 到 网 站 上 进行 推 新 和 迁移 学 习 。 
除了 简便 以 外 ， 用 JavaScript 部 署 和 微调 次 度 学 习 模 型 还 有 几 个 额外 的 优势 。 
口 和 服务 需 端 的 推 闭 相 比 ， 客 户 端 推 新 可 以 避免 服务 顺 端 和 客户 端 间 双 回 通 信 造 成 的 延迟 。 
这 增强 了 服务 的 可 用 性 ， 因 此 可 以 带 来 更 好 的 用 户 体 验 。 
口 通过 在 客户 端 用 GPU 加 速 计 算 这 种 深度 学 习 策 略 ， 省 去 了 管理 服务 融 端 GPU 资源 的 烦 
恼 ， 可 以 大 幅度 减少 技术 栈 的 复杂 上 度 和 维护 成 本 。 
口 通过 将 数据 和 推 靳 结果 保留 在 客户 端 ， 用 户 的 隐私 数据 可 以 得 到 充分 的 保护 。 对 于 医疗 
和 时 尚 领域 而 言 ， 这 点 非常 重要 。 
口 由 于 浏览 各 和 其 他 基于 JavaScript 的 UI 环境 直观 且 可 互动 的 特质 ， 它 们 在 可 视 化 上 有 独 
特 优 势 ， 并 且 有 助 于 理解 和 教授 神经 网 络 。 
口 TensorFlow.js 不 仅 文 持 推 新 ， 而 且 还 支持 训练 。 这 使 客户 端 能 够 进行 迁移 学 习 和 微调 。 我 
们 可 以 借 此 更 好 地 生成 个 性 化 的 机 带 学 习 模 型 。 
口 在 浏览 硕 中 ，JavaScript 提供 了 一 套路 平台 API 来 获取 设备 内 置 的 传 感 锅 ， 例 如 网 络 摄像 
头 和 麦克 风 。 这 能 加 速 需要 用 到 这 些 传 感 希 的 蜂 平 台 应 用 程序 的 开发 。 
除了 在 客户 端 中 显赫 的 地 位 ，JavaScript 在 服务 需 端 也 有 所 建树 。 例 如 ，Node.js 就 是 一 个 非 
第 流行 的 基于 JavaScript 的 服务 带 闪 应 用 程序 框 名 。 通 过 Node.js 版 的 TensorFlow.js (tfjs-node )， 
你 可 以 在 浏览 锅 外 训练 和 部 署 深 度 学 习 模 型 ， 因 此 就 脱离 了 浏览 融 问 资源 限制 的 树 格 。 同 时 ， 开 
发 者 还 可 以 下 接 使 用 来 自 Node.js 的 庞大 生态 的 资源 ， 从 而 简化 目 己 的 技术 栈 ， 而 且 这 些 都 可 以 
用 和 客户 端 几 乎 完全 一 样 的 TensorFlowjs 代码 做 到 。 这 使 我 们 离 “ 一 次 编写 ， 到 处 运行 ”的 理想 
又 更 近 了 一 步 。 本 书 中 有 好 几 个 示例 展示 了 这 一 点 。 
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13.2 ”回顾 深度 学 习 的 流程 和 TensorFlow.js 中 的 算法 


了 解 TensorFlow.js 的 历史 背景 后 , 青 来 看 看 它 的 技术 部 分 。 本 市 将 回顾 你 在 解决 机 此 学 习 时 
应 该 但 循 的 通用 流程 ,并 重点 介绍 其 中 一 些 最 重要 的 考量 和 常见 的 误区 。 之 后 将 回顾 本 书 介 绍 过 
的 各 种 神经 网 络 模块 ( 层 ) 类 型 。 此 外 还 将 遍 览 TensorFlow.js 生态 中 的 预 训 练 模型 ， 你 可 以 借助 
它们 加 速 开 发 周期 。 在 本 市 的 末尾 还 将 展示 一 系列 机 楷 学 习 问 题 , 这 些 问 题 理 论 上 都 可 以 通过 本 
书 中 介绍 的 基本 模块 解决 ,希望 它们 能 激发 你 的 想象 力 , 助 你 找到 将 TensorFlow.js 应 用 到 目 己 的 
机 硕 学 习 问 题 上 的 方法 。 


13.2.1 ”监督 式 深 度 学 习 的 通用 流程 


深度 学 习 是 强大 的 工具 。 但 出 人 意料 的 是 ， 整 个 机 融 学 习 流 程 中 最 困难 、 耗 时 最 久 的 部 分 通 
第 是 设计 和 训练 这 些 模型 之 前 的 环 市 (对 于 要 部 蜀 到 生产 环境 的 模型 而 言 , 还 包括 部 莹 之 后 的 环 
 )。 这 些 环节 包括 : 充分 理解 问题 以 决定 哪 类 数据 是 预测 所 需 的 ; 确定 模型 潜在 可 以 做 出 哪些 
有 较 高 准确 率 且 可 泛 化 的 预测 ; 决定 如 何 将 机 带 尝 习 模 型 集成 到 针对 实际 问题 的 更 大 的 解决 方案 
中 ; 如 何 度量 模型 是 否 成 功 地 达成 了 设计 目标 。 上 述 这 些 是 任何 成 功 的 机 需 学 习 应 用 程序 都 应 该 
具备 的 前 提 条 件 。TensorFlow.js 这 类 软件 库 不 可 能 蔡 你 将 这 些 完全 目 动 化 。 下 面 是 对 典型 的 监督 
式 深 度 学 习 流 程 的 快速 回顾 。 

(1) 确定 机 器 学 习 是 否 是 合适 的 解决 方案 。 首 先 需 要 考虑 的 是 ， 机 各 学 习 方 法 是 否 适 用 于 当 
前 的 任务 。 只 有 在 答案 是 肯定 的 时 ， 才 应 该 进入 后 续 的 步 台 。 有 些 时 候 ， 非 机 融 学 习 方 法 能 以 
更 低 的 成 本 达到 甚至 超过 机 带 学 习 方 法 的 性 能 。 

(2) 定义 机 器 学 习 问 题 。 确 定 有 哪些 可 用 的 数据 ， 以 及 要 用 这 些 数 据 解决 的 问题 是 什么 。 

(3) 确保 数据 量 充足 。 确定 手头 的 数据 是 否 足 人 够 进行 模型 训练 。 如 果 可 用 的 数据 不 充足 ， 那 就 
可 能 需要 收集 更 多 数据 ， 并 座 人 来 手动 标记 未 标记 的 数据 集 。 

(4) 定义 一 种 能 够 可 靠 地 评估 模型 训练 成 功 与 否 的 度量 指标 。 对 于 简单 的 任务 , 使 用 预测 准确 
率 就 足够 了 。 但 在 很 多 情况 下 ， 可 能 还 需要 使 用 更 复 森 的 、 和 特定 领域 相关 的 度量 指标 。 

(5) 为 模型 性 能 评估 做 准备 。 设 计 用 于 模型 评估 的 验证 过 程 。 具 体 而 言 ， 应 该 将 数据 划分 成 
三 个 分 布 一 致 但 互 无 重 登 的 数据 集 : 训练 集 、 验 证 集 和 测试 集 。 验 证 集 和 测试 集 的 数据 一 定 不 能 
和 测试 集 重 登 。 例 如 , 在 预测 时 序数 据 时 ， 验 证 集 和 测试 集 数据 必 须 来 和 目 训 练 集 数据 采样 时 间 段 
之 后 的 时 间 7 段 。 除 此 之 外 ， 数 据 的 预 处 理 代码 还 应 该 用 测试 代码 进行 履 盖 ， 以 避免 出 现 bug。 

(6) 问 量化 数据 。 将 数据 转换 为 张 量 ， 或 者 说 多 维 数组 。 这 类 数据 结构 可 以 说 是 机 需 学 习 框 架 
( 例如 TensorFlow.js 和 TensorFlow ) 中 模型 的 通用 语言 。 通 篆 还 需要 预 处 理 〈 例 如 标准 化 ) 张 量 
化 后 的 数据 ， 从 而 让 它们 更 适用 于 模型 。 

(7) 开发 出 能 超越 常识 性 基准 性 能 的 模型 。 将 非 机 需 学 习 模型 的 性 能 作为 各 识 性 的 基准 ( 比如， 
人 口 预测 的 回归 问题 中 下 接 预测 人 口 平 均值 , 时 间 序 列 预 测 问题 中 下 接 将 上 一 个 数据 点 作为 预测 
结果 )， 并 以 此 证 明 开 发 出 的 机 带 学 习 模 型 确实 能 够 为 当前 问题 市 来 性 能 上 的 提升 。 但 这 种 性 能 
提升 不 是 必然 的 ( 参见 第 (1) 步 )。 
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(8) 开发 容量 充足 的 模型 。 通 过 调整 超 参 数 并 添加 正则 化 ， 逐 步 优 化 模型 的 架构 。 仪 依据 验 
证 集 上 的 预测 准确 率 〈 而 不 是 训练 集 或 测试 集 上 的 准确 率 ) 调整 超 参 数 。 正 如 之 前 所 说 的 ， 应 
该 完 让 模型 达到 过 拟 合 状态 (在 训练 集 上 达到 比 验 证 集 上 更 好 的 预测 准确 从 ), 据 此 得 出 模型 最 
大 所 需 的 容量 是 多 少 。 找 到 这 个 容量 的 临界 点 后 ， 才 可 以 开始 使 用 正则 化 以 及 其 他 手段 减少 过 
拟 合 。 

(9) 调整 超 参数 。 调 整 超 参 数 时 要 注意 验证 集 是 否 出 现 过 拟 合 。 因 为 超 参数 是 根据 验证 集 上 
的 性 能 决定 的 , 所 以 它们 的 值 可 能 会 为 验证 集 过 度 优化 , 从 而 无 法 真正 泛 化 到 其 他 数据 上 。 此 处 ， 
测试 集 的 责任 是 在 超 参数 优化 后 获得 模型 准确 率 的 无 俩 差 估计 。 因 此 , 在 超 参数 调 优 时 不 应 使 用 
测试 集 。 

(10) 校 验 并 评估 训练 好 的 模型 。 正如 在 12.1 市 中 讨论 的 , 这 一 步 需 要 用 最 新 的 评估 数据 集 测 
试 模型 ， 并 确定 模型 的 预测 准确 率 是 否 达 到 了 预 完 制定 的 、 可 以 让 用 户 使 用 的 水 平 。 此 外 ,还 需 
要 对 模型 在 不 同 数据 切片 ( 即 数据 子 集 ) 上 的 质量 表现 进行 更 深层 的 分 析 ， 从 而 检测 模型 是 否 存 
在 不 公平 的 表现 〈 即 对 不 同 的 数据 切片 表现 出 截然 不 同 的 准确 率 ) 和 有 害 的 偏见 。*" 只 有 在 模型 
达到 上 述 的 评估 指标 后 ， 才 应 该 进入 下 一 环 市 。 

(11) 优化 并 部 署 模型 。 优 化 模型 从 而 减 小 其 体积 ， 并 提升 其 推 源 速度 ， 随 后 就 可 以 将 它 部 署 
到 面向 用 户 的 环境 中 ,包括 网 站 、 移 动 应 用 程序 , 或 者 在 服务 右 端 以 HITP 服务 端点 的 形式 雁 露 
给 其 他 应 用 程序 (参见 12.3 市 )。 

上 面 的 流程 主要 适用 于 监督 式 学 习 , 这 也 是 很 多 实际 问题 中 会 涉及 的 一 种 机 占 学 习 形 式 。 本 
书 中 还 介绍 了 一 些 其 他 类 型 的 机 融 学 习 流 程 , 包 括 监督 式 迁移 和 学习、 强化 学 习 和 生成 式 深度 学 习 。 
其 中 监督 式 迁 移 学 习 的 流程 《参见 第 5 草 ) 和 其 他 监督 式 学 习 的 流程 基本 一 样 。 一 个 细微 的 不 同 
点 是 ,前 者 的 模型 设计 和 训练 是 基于 预 训练 的 模型 进行 的 , 因此 它 所 需 的 训练 数据 总 量 比 从 头 训 
练 一 个 新 模型 要 少 。 生 成 式 次 度 学 习 和 监督 式 学 习 的 目标 则 完全 不 同 , 前 者 的 目标 是 创建 以 假 乱 
真 的 新 样 例 。 在 实践 中 也 存在 一 些 技巧 可 以 将 生成 式 模 型 的 训练 过 程 转 换 成 监督 式 学 习 的 训练 过 
程 。 我 们 在 第 9 章 中 学 过 的 VAE 和 GAN 就 是 这 方面 的 例子 。 与 上 述 机 融 学 习 类 型 相 比 ， 强 化 学 
习 对 问题 的 定义 方式 有 着 根本 的 区 别 。 因 此 , 它 的 流程 也 是 完全 不 同 的 。 在 这 个 流程 中 ， 主 要 需 
要 考虑 的 因素 是 环境 、 智 能 体 、 行 为 、 奖 励 结 构 ， 以 及 解决 问题 使 用 的 算法 或 模型 类 型 。 第 11 
章 简 要 地 介绍 了 强化 学 习 的 基本 概念 和 算法 。 
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本 书 介 绍 的 各 种 神经 网 络 可 以 被 细 分 为 3 种 类 型 : 密集 型 连接 网 络 [ 有 时 又 叫 作 多 层 感知 从 
( MLP ) ]、 卷 积 网 络 〈convnet ) 和 循环 网 络 。 这 是 每 个 深度 等 习 从 业者 都 应 该 熟悉 的 三 种 基本 神 
经 网 络 类 型 。 每 种 神经 网 络 都 适用 于 一 种 特定 的 输入 类 型 。 神 经 网 络 的 架构 〈 无 论 MLP、 卷 
积 网 络 还 是 循环 网 络 ) 会 对 输入 数据 的 结构 做 出 一 些 假设 , 并 对 其 特征 进行 编码 。 这 形成 了 一 个 
假设 空间 , 训练 过 程 会 通过 反问 传播 和 超 参 数 优化 在 这 个 假设 空间 中 寻找 好 的 模型 。 神 经 网 络 染 











J) 机 需 学 习 的 公平 性 是 一 个 新 的 研究 领域 。 更 多 相关 内 容 参 见 Google AI 网 站 文章 “Responsible AI Practices”。 
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构 是 否 适用 于 某 个 问题 ， 完 全 取决 于 数据 的 结构 是 否 与 神经 网 络 染 构 对 数据 的 假设 匹配 。 
可 以 像 拼 乐高 积木 一 样 ,轻松 地 将 这 些 不 同 网 络 类 型 组 合成 更 复杂 的 多 模型 神经 网 络 。 从 某 
种 角度 来 看 , 深度 学 习 中 的 层 就 是 负责 处 理 可 微 数据 的 乐高 积木 。 下 面 是 对 输入 数据 类 型 及 其 对 
应 的 网 络 架构 的 概 完 。 
口 癌 量 数据 ( 无 时 间 顺 序 和 空间 顺序 ): MLP 模型 ( 基于 密集 层 )。 
口 图 像 数 据 ( 黑 日 图 像 、 灰 度 图 像 或 彩色 图 像 )， 二 维 卷 积 ( 2D convnet )。 
口 表示 为 音频 数据 的 时 频谱 : 二 维 卷 积 或 RNN。 
口 文本 数据 : 一 维 卷 积 (1D convnet ) 或 RNN。 
口 时 间 序 列 数据 : 一 维 卷 积 或 RNN。 
口 立体 数据 ( 例如 三 维 的 医学 影像 数据 )， 三 维 卷 积 (3D convnet )。 
口 视频 数据 ( 图 像 序列 ) 三 维 卷 积 ( 如 果 需 要 捕捉 动态 效果 ); 二 维 卷 积 与 RNN 或 一 维 卷 
积 之 一 的 组 合 ， 其 中 二 维 卷 积 负责 逐 帧 提取 视频 的 特征 ，RNN 或 一 维 卷 积 负责 处 理 特 征 
序列 。 
让 我 们 逐个 具体 讲解 这 三 大 架构 类 型 、 它 们 擅长 的 任务 , 以 及 如 何在 TensorFlow.js 中 使 用 
它们 。 


1. 密集 连接 网 络 与 多 层 感知 器 

密集 连接 网 络 ( densely connected network ) 和 多 层 感知 器 ( MLP ) 这 两 个 词 几乎 是 等 效 的 ， 
除了 一 个 细微 的 区 别 : 密集 连接 网 络 可 以 只 包含 一 层 ， 而 MLP 则 必须 包含 至 少 一 个 隐藏 层 和 
一 个 输出 层 。 为 了 保持 用 语 的 简洁 ， 接 下 来 会 用 MLP 一 词 指 代 任何 主要 由 密集 层 组 成 的 模型 。 
这 类 神经 网 络 特别 适用 于 无 序 的 向 量 数据 ( 例如 钓鱼 网 站 检测 任务 和 房价 预测 任务 中 的 数值 特 
征 )。 模 型 中 的 每 个 密集 层 会 尽 可 能 捕捉 每 对 输入 特征 与 该 层 激活 函数 的 输出 间 的 关系 。 这 是 
通过 对 密集 层 的 核 与 输入 癌 量 进行 矩阵 乘法 计算 做 到 的 〈 之 后 再 加 上 偏差 回 量 ， 最 后 通过 激活 
男 数 得 到 最 终 输 出 )。 这 类 神经 网 络 之 所 以 叫 作 密集 连接 ( densely connected ) 网 络 | 有 时 也 叫 作 
全 连接 ( fully connected ) 网 络 ]， 正 是 因为 其 中 每 个 输出 的 激活 函数 值 都 会 受到 每 个 输入 特征 的 
影响 。 这 一 点 和 其 他 架构 类 型 ( convnet 和 RNN ) 相当 不 同 ， 因 为 在 后 者 中 ， 输 出 元 素 只 和 输入 
数据 的 子 集 有 关 。 

MLP 最 常用 于 处 理 类 别 型 数据 〈 比 如 ， 输 入 特征 是 一 组 属性 的 数据 ， 就 像 钓 鱼网 站 检测 示 
例 中 见 过 的 一 样 )。 另 一 个 稼 见 的 用 途 是 将 它 作 为 针对 分 类 任务 和 回归 任务 的 神经 网 络 的 最 终 得 
出 环节 。 这 些 网 络 可 能 会 使 用 卷 积 层 和 循环 层 作 为 特征 提取 需 ， 然 后 将 提取 出 的 特征 输入 MLP 
中 。 比 如 第 4 草 和 第 5 章 中 介绍 的 二 维 卷 积 尾部 都 是 一 两 个 密集 层 , 第 9 章 中 介绍 过 的 循环 网 络 
也 是 如 此 。 

现在 简要 回顾 一 下 ， 对 于 不 同 的 监督 式 学 习 任 务 ， 应 该 如 何 选择 MLP 模型 输出 层 的 激活 函 
数 。 执 行 二 分 类 任务 时 ，MLP 最 后 的 密集 层 应 该 仅 有 一 个 单元 ， 并 且 使 用 sigmoid 激 活 函 数 。 在 
训练 这 类 针对 二 分 类 任务 的 MLP 时 , 应 该 采用 binarycrossentropy 作为 训练 时 的 损失 函数 。 
训练 集中 的 样 例 应 该 采用 二 元 标签 ( 值 为 0 或 1 )。 具体 而 言 ， 这 类 模型 的 TensorFlow.js 代码 看 
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起 来 应 该 像 下 面 这 样 。 
import * as tf from '@tensorflow/tfjs'; 
Const model = tf.sequential(); 
model.add(tf.layers.dense({units: 32, activation: 'relu', inputShape: 

[numIinputFeatures|]})); 

model.add (tf.layers.dense({units: 32, activation: 'relu’'})); 
model.add (tf.layers.dense({units: 1: activation: 'sigmoid'})); 
model.compile({loss: 'binaryCrossentropy', optimizer: 'adam'}); 





若 要 执行 单 标签 的 多 分 类 任务 ( 即 每 个 样 例 对 应 多 个 可 能 类 别 中 的 一 个 类 别 ), 模型 的 最 后 
应 该 是 一 个 采用 归 一 化 指数 函数 作为 激活 函数 的 密集 层 。 该 密集 层 的 单元 数 应 该 等 于 预测 类 别 
的 数量 。 如 果 预 测 目 标 采用 one-hot 编码 , 应 使 用 categoricalcrossentropy 作为 损失 另 数 。 
如 末 和 采用 整数 索引 编码 ， 则 应 使 用 sparsecategoricalcrossentropy 作为 损失 函数 。 举 例 


如 下 。 











Const model = tf.sequential();} 

model.add(tf.layers.dense({units: 32, activation: 'relu', inputShape: 
[numInputFeatures|]});} 

model.add(tf.layers.dense({units: 32, activation: 'relu'});} 

model.add(tf.layers.dense({units: numClasses: activation: 'softmax'}); 

model.compile({loss: 'categoricalCrossentropy', optimizer: 'adam'}); 





若 要 执行 多 标签 多 分 类 任务 ( 即 每 个 样 例 可 以 有 多 个 正确 类 别 )， 那 么 模型 的 最 后 一 层 应 该 
是 一 个 采用 sigmoid 作为 激活 函数 的 密集 层 。 该 层 的 单元 数 应 该 等 于 预测 类 别 的 数量 。 应 使 用 
binaryCrossentropy 作为 损失 函数 ,日 标 应 该 采用 hot 编码 。 








const model = tf.sequential () ; 

model.add(tf.layers.dense({units: 32, activation: 'relu', inputShape: 
[numInputFeatures|]})); 

model.add(tf.layers.dense({units: 32, activation: 'relu'})); 

model.add(tf.layers.dense({units: numClasses: activation: 'sigmoid'}));} 

model.compile({loss: 'binaryCrossentropy', optimizer: 'adam'}); 





硅 要 对 由 连续 值 组 成 的 问 量 执行 回归 任务 , 模型 的 结尾 应 该 是 一 个 密集 层 。 它 的 单元 数 等 于 
要 预测 的 数字 的 数量 〈 一 般 为 单个 数字 ， 例 如 房价 或 气温 )， 并 应 使 用 线性 激活 函数 。 运 用 于 回 
归 任 务 的 损失 果 数 有 不 少 ， 其 中 最 常用 的 是 meanSgquaredError 和 meanAbsoluteError。 











Const model = tf.sequential();} 

model.add(tf.layers.dense({units: 32, activation: 'relu', inputShape: 
[numInputFeatures|]})); 

model.add(tf.layers.dense({units: 32, activation: 'relu'})); 

model.add(tf.layers.dense({units: numClasses})); 

model.compile({loss: 'meanSquaredError', optimizer: 'adam'}); 


2. 卷 积 网 络 
卷 积 层 可 以 通过 对 输入 向 量 的 不 同 空间 位 置 ( 又 称 区 块 ) 进行 相同 的 几何 转换 提取 局 部 的 空 43 
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间 特 征 。 由 此 可 以 得 到 具有 位 置 不 变性 的 新 表示 ,， 从 而 使 卷 积 层 非常 高 效 及 模块 化 。 这 一 算法 适 
用 于 任意 空间 维度 ,包括 一 维 (序列 )、 二 维 ( 图像 或 类 似 图 像 的 非 图 像 数 据 ， 例 如 音频 的 时 频 
谱 )、 三 维 ( 立体 数据 ) 可 以 用 tf. layers.convid 层 人 处 理 序列 ; tf. layers.conv2d 车 
处 理 图 像 ，tf.lavers.conv3d 层 处 理 立 体 数据 。 

convnet 由 堆 莅 的 卷 积 层 和 池 化 层 组 成 。 可 以 用 池 化 层 在 空间 维度 降 采 样 数据 。 随 着 特征 总 
量 的 增加 , 这 有 助 于 保证 特征 图 的 尺寸 在 合理 的 范围 内 , 并 且 可 以 让 后 续 的 层 在 更 大 的 空间 窗口 
内 “看 到 ”convnet 的 输入 图 像 。convnet 的 尾部 一 般 是 一 个 局 平 化 层 或 全 局 池 化 层 。 它 可 以 将 空 
间 维 度 的 特征 图 转换 为 回 量 ， 然 后 就 可 以 将 该 回 量 传人 一 系列 密集 层 (MLP 模型 )， 获 得 最 终 的 
分 类 或 回归 输出 。 

在 不 远 的 将 来 ,一般 的 卷 积 很 可 能 会 被 深度 可 分 离 卷 积 ( depthwise separable convolution ) 大 
范围 (甚至 完全 ) 取代 。 这 是 因为 后 者 的 作用 是 等 效 的 , 而 且 更 快 、 更 融 效 。 它 对 应 TensorFlowjs 
中 的 tf .layers.separableConv2q 层 。 如 果 你 要 从 头 构建 一 个 神经 网 络 ， 强 烈 建 议 你 使 用 
次 度 可 分 离 卷 积 。 tf.layers.separableConv2d 层 可 以 直接 蔡 换 tf.layers.conv2d | 
由 此 构建 出 的 神经 网 络 不 仅 更 轻 量 、 更 快 ， 而且 性 能 还 可 能 更 好 。 下 面 是 一 个 典型 的 ( 单 标签 、 
多 分 类 ) 图 像 识 别 网 络 的 代码 。 从 它 的 拓扑 结构 可 以 看 到 不 断 重复 出 现 的 卷 积 层 和 池 化 层 的 


组 合 。 












































const model = tf.sequential(); 
model.add (tf.layers.separableConv2d(t{ 
filters: 32, kernelSize: 3, activation: 'relu', 


inputShape: [height, width, channels]})); 

model.add (tf.layers.separableConv2d(t{ 

filters: 64, kernelSize: 3, activation: 'relu'})).; 
model.add(tf.layers.maxPooling2d({poolSize: 2})); 


model.add (tf.layers.separableConv2d(t{ 


filters: 64, kernelSize: 3, activation: 'relu'})); 
model.add (tf.layers.separableConv2d(t{ 
filters: 128, kernelSize: 3, activation: 'relu'})); 


model.add(tf.layers.maxPooling2d({poolSize: 2})); 


model.add (tf.layers.separableConv2d(t{ 











filters: 64, kernelSize: 3, activation: 'relu'})); 
model.add (tf.layers.separableConv2d(t{ 

filters: 128, kernelSize: 3, activation: 'relu'})); 
model.add(tf.layers.globalAveragePooling2gd()); 
model.add(tf.layers.dense({units: 32, activation: 'relu'})); 
model.add(tf.layers.dense({units: numClasses, activation: 'softmax'})); 
model.compile({loss: 'categoricalCrossentropy', optimizer: 'adam'}); 


3. 循环 网 络 
RNN 的 工作 原理 是 在 每 个 时 间 步 中 处 理 输入 的 序列 数据 ， 同 时 维持 一 个 各 个 时 间 步 共享 的 
状态 。 这 里 的 状态 一 般 是 一 个 向 量 或 一 组 向 量 (几何 空间 中 的 一 个 点 )。 如 果 要 处 理 的 数据 是 序 
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列 数 据 , 并 且 数 据 的 模式 不 具备 时 间 不 变性 (例如 在 一 些 时 间 序 列 数 据 中 , 距 今 更 近 的 数据 要 比 
距 今 更 远 的 数据 重要 )， 那 么 就 应 该 优先 选择 RNN 而 不 是 一 维 卷 积 。 

TensorFlow.js 提供 了 三 种 RNN 层 类 型 : simpleRNN 、GRU 和 LSTM。 对 于 绝 大 部 分 使 用 场 
景 ， 应 该 优先 使 用 GRU 或 LSTM。 这 两 个 层 类 型 中 ，LSTM 更 为 强大 ， 但 同时 计算 量 也 更 大 。 
可 以 将 GRU 看 作 LSTM 的 一 个 备 选项 ， 因 其 具有 简单 和 低 成 本 的 优点 。 

为 了 保证 能 够 将 多 个 RNN 层 堆 狼 在 一 起 ， 除 了 最 后 一 层 之 外 的 所 有 层 都 应 该 配置 成 返回 该 
层 输出 的 整个 序列 ( 每 个 输入 时 间 步 与 一 个 输出 时 间 步 对 应 )。 如 果 无 须 堆 大 RNN 层 , 那么 一 般 
RNN 层 只 需要 返回 最 后 的 输出 ， 该 输出 中 包含 整个 序列 的 信息 。 

下面 是 用 单个 RNN 层 和 单个 密集 层 对 一 个 回 量 序列 进行 二 分 类 的 示例 。 

const model = tf.sequential();} 


model.add (tf.layers.lstm(t 
units: 32, 


























inputShape: [numTimesteps, numFeatures] 
})); 
model.add(tf.layers.dense({units: 1, activation: 'sigmoid'})); 
model.compile({loss: 'binaryCrossentropy', optimizer: 'rmsprop'});} 








下 面 的 示例 展示 的 是 对 一 个 癌 量 序列 进行 单 标签 、 多 分 类 的 示例 。 示例 使 用 的 模型 由 堆 蔷 的 
RNN 层 组 成 。 


const model = tf.sequential(); 
model.add (tf.layers.lstm(t 

units: 32, 

returnSequences: true, 

inputShape: [numTimesteps, numFeaturesl] 
})); 
model.add(tf.layers.lstm({units: 32, returnSequences: true})); 
model.add(tf.layers.lstm({units: 32})); 
model.add(tf.layers.dense({units: numClasses, activation: 'softmax'}));} 
model.compile({loss: 'categoricalCrossentropy', optimizer: 'rmsprop'});} 








4. 能 帮助 减少 过 拟 合 及 促进 收敛 的 层 和 正则 化 器 

除了 上 文 提 到 的 一 些 主 要 层 类 型 外 , 还 有 一 些 其 他 的 层 类 型 。 这些 层 类 型 适用 于 各 种 模型 类 
型 并 且 可 以 辅助 模型 的 训练 过 程 。 如 采 没 有 这 些 层 类 型 ， 就 无 法 得 到 当下 在 各 种 机 需 学 习 任 务 中 
取得 的 怀 人 准确 率 。 例 如 ，MLP 、convnet 和 RNN 中 通常 会 加 入 dropout 层 和 batchNormalization 
层 来 帮助 模型 在 训练 中 更 快 地 收敛 并 减少 过 拟 合 。 下 面 的 示例 展示 了 一 个 引入 了 dropout 层 的 、 
针对 回归 任务 的 MLP。 


Const model = tf.sequential () ; 
model.add (tf.layers.densel(t{ 
units: 32, 
activation: 'relu', 
inputShape: [numFeatures] 
})); 
model.add (tf.layers.dropout ({rate: 0.25})); 
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model.add(tf.layers.dense({units: 64, activation: 'relu'})); 
model.add(tf.layers.dropout ({rate: 0.25})); 
model.add(tf.layers.dense({units: 64, activation: 'relu'})); 
model.add(tf.layers.dropout ({rate: 0.25})); 

model.add (tf.layers.denselt 

units: numClasses, 














activation: 'categoricalCrossentropy 
})); 


model.compile({loss: 'categoricalCrossentropy', optimizer: 'rmsprop'});} 


13.2.3 在 TensorFlow.js 中 使 用 预 训练 模型 


当 你 尝试 解决 的 机 各 学 习 问 题 只 和 你 的 应 用 程序 或 数据 集 有 关 时 , 确实 应 该 从 头 专门 训练 一 
个 模型 。TensorFlow.js 也 提供 了 相关 的 工具 来 实现 这 样 的 模型 。 然 而 在 一 些 场景 中 ,你 要 解决 的 
问题 可 能 是 一 个 常见 问 题 ， 并 且 已 经 有 预 训练 的 模型 可 以 解决 (或 通过 微调 部 分 解决 ) 你 的 需求 。 
TensorFlowjs 提供 了 一 系列 这 样 的 预 训练 模型 ， 第 三 方 开发 者 也 基于 这 些 模型 构建 了 一 些 新 的 预 
训练 模型 .这 些 模型 提供 了 高 质量 上 且 易 用 的 API。 同时 ,你 可 以 在 自己 的 JavaScript 应 用 程序 ( Web 
应 用 程序 和 Node.js 应 用 程序 ) 中 以 npm 包 的 形式 方便 地 引入 它们 。 

在 合适 的 场景 中 使 用 这 些 预 训练 模型 可 以 极 大 地 提升 开发 效率 。 在 此 很 难 一 一 列举 所 有 基于 
TensorFlow.js 的 预 训 练 模型 ， 但 仍然 可 以 重点 列 出 其 中 最 热门 的 几 个 。 所 有 npm 包 中 名 称 以 
@Qtensorflow-models/ 开 头 的 都 是 由 TensorFlow.js 团队 维护 并 提供 第 一 方 支持 的 , 其 他 的 npm 包 则 
由 第 三 方 开发 者 提供 。 

@tensorflow-models/mobilenet 是 一 个 轻 量 级 的 图 像 分 类 模型 。 对 于 任意 一 个 输入 的 图 像 , 它 
会 输出 1000 个 InageNet 类 别 对 应 的 概率 值 。 它 适用 于 各 种 图 像 分 类 任务 ， 包 括 标注 网 页 中 的 图 
像 、 检 测 网 络 摄像 头 的 视频 流 中 是 否 包 含 特定 的 内 容 ， 以 及 涉及 网 像 数 据 的 迁移 学 习 任 务 。 
@tensorflow-models/mobilenet 针对 的 主要 是 一 般 的 图 像 类 别 , 还 有 些 第 三 方 库 更 专注 于 特定 领域 
的 图 像 识 别 。 例 如 ，nsfwjs 主要 专注 于 分 类 健康 内 容 、 色 情 内 容 以 及 其 他 少儿 不 宜 的 内 容 。( 视 
频 应 用 程序 的 ) 监护 人 模式 、 浏 览 需 安全 检测 等 应 用 都 可 以 用 到 它 。 

正如 第 5 划 中 讨论 过 的 , 目标 检测 和 图 像 分 类 是 不 同 的 。 前 者 不 仪 会 输出 图 像 的 中 的 目标 是 
什么 , 还 会 识别 它们 在 图 像 中 的 位 置 。@tensorflow-models/coco-ssd 是 一 个 可 以 检测 90 种 目标 类 
别 的 目标 检测 模型 。 它 可 以 识别 图 中 可 能 出 现 的 多 个 目标 ,， 即使 代表 它们 位 置 的 边框 有 一 定 重 合 
( 所 医 13-1a )。 

对 于 Web 应 用 程序 而 言 ， 针 对 某 些 目 标的 检测 能 力 有 者 特别 高 的 价值 ， 因 为 通过 它们 可 以 
实现 一 些 新 窜 又 有 趣 的 人 机 交互 。 这 些 检测 目标 包括 人 脸 、 人 手 以 及 驱 干 。 这 三 个 目标 都 已 有 对 
应 的 、 基 于 TensorFlow.js 构建 的 专用 第 三 方 模型 。 对 于 人 脸 识 别 ，face-apijjs 支持 实时 人 脸 跟 踪 
和 面部 特征 ( 例如 眼睛 和 嘴 ， 见 图 13-1b ) 检测 。 对 于 手 部 识别 ，handtrack.js 可 以 实时 跟踪 双手 
的 位 置 ( 见 图 13-1c ), 对 于 驱 干 , @tensorflow-models/posenet 文 持 实时 、 高 精度 的 骨骼 关键 点 ( 例 
如 肩膀 、 手 肘 、 般 部 和 膝 善 ) 检测 ( 见 图 13-1d )。 
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© 
text Identity Insult obscene Severe sexual threat toxicity 
attack toxicity explicit 
Were dudes on cpmputers, moron. You are quite | false true false false false false true 





astonishingly stupid. | 


Please stop. If you continue to vandalize Wikipedia, as false false false false false false false 
you did to Kmart, you will be blocked from editing. 


| respect your point of view, and when this discussion | false false false false false false false 
originated on 8th April | would have tended to agree with 


you. 








图 13-1 几 个 用 TensorFlow.js 构建 的 并 已 经 封装 成 npm 包 的 预 训 练 模型 。(a) @tensorflow- 
models/coco-ssd 是 一 个 可 以 识别 多 个 目标 的 目标 检测 右 。(b) face-apijs 可 以 实时 识别 人 
脸 和 面部 的 关键 点 (经 Vincent Miihler 授权 )。(c) handtrack.js 可 以 实时 跟踪 人 手 的 位 置 
(经 Victor Dibia 授权 )。(d) @tensorflow-models/posenet 可 以 根据 输入 图 像 实 时 检测 人 体 
骨骼 的 关键 位 置 。(e) @tensorflow-models/toxicity 可 以 检测 并 标注 出 输入 的 英文 文本 中 
的 七 种 不 文明 的 内 容 











对 于 音频 数据 ，@tensorflow-models/speech-commands 提供 了 一 个 能 够 实时 检测 18 个 英语 单 
词 的 预 训练 模型 ， 它 能 够 直接 调用 浏览 器 的 WebAudio API 获 取 音 频数 据 。 尽 管 这 跟 单 词 量 大 的 
连续 语音 识别 还 有 一 定 差距 ， 但 它 使 很 多 浏览 需 能 够 实现 基于 音频 的 交互 。 

还 有 一 些 可 以 处 理 文本 数据 的 预 训练 模型 。 例 如 ，@tensorflow-models/toxicity 提供 的 模型 可 
以 从 几 个 维度 〈 是 否 涉 及 威胁 、 辱 罗 或 淫秽 信息 ) 判断 输入 的 文本 是 否 文 明 。 这 可 以 很 好 地 支持 
需要 内 容 审核 的 场景 ( 见 图 13-1b )。 该 模型 底层 使 用 的 是 一 个 通用 的 自然 语言 处 理 模型 ， 叫 作 
@tensorflow-models/universal-sentence-encoder。 该 模型 可 以 将 输入 的 任何 更 文句 子 转换 为 适用 于 
各 种 目 然 语言 处 理 任 务 的 回 量 。 这 些 任务 包括 意图 分 类 、 话 题 分 类 、 人 情感 分 析 和 答疑 。 

有 一 点 值得 特别 说 明 。 上 文 提 到 的 一 部 分 模型 不 仅 文 持 简单 的 推 新 , 还 可 以 作为 迁移 学 习 的 
基 模 型 或 为 下 游 的 机 需 学 习 模 型 提供 输入 。 这 些 预 训练 模型 可 以 免 去 漫长 的 模型 构建 或 训练 过 
程 。 我 们 可 以 直接 将 它们 应 用 到 特定 的 领域 数据 上 , 这 部 分 得 益 于 层 和 模型 像 乐高 积木 一 样 的 可 
组 合 性 。 比 如 ， 上 文 提 到 的 通用 句子 编 但 融 的 主要 作用 就 是 为 下 游 的 模型 提供 数据 。 语 音 口 令 模 
型 内 置 了 定义 新 的 口令 并 获取 音频 样本 的 方法 , 由 此 可 以 训练 出 新 的 分 类 天 。 这 对 于 需要 目 定义 
单词 或 适应 用 户口 音 的 应 用 场景 非常 方便 。 另 外 ,， 像 PoseNet 和 face-apijjs 这 样 的 模型 实时 输出 
的 头 部 、 双 手 和 和 骤 干 的 姿态 数据 可 以 进一步 佟 入 下 游 的 模型 。 下 游 的 模型 可 以 借 此 检测 特定 的 手 
势 和 动作 顺序 。 这 对 于 很 多 需要 提供 备用 交互 方法 的 场景 非常 有 用 。 
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除了 上 面 提 到 的 以 输入 数据 类 型 为 导向 的 模型 外 ,还 有 一 些 基于 TensorFlow.js 的 第 三 方 预 训 
练 模型 。 这 些 模型 在 艺术 创新 上 大 有 建树 。 例 如 ，ml5.js 提供 了 一 个 具有 风格 迁移 能 力 的 模型 ， 
可 以 将 输入 图 像 的 风格 迁移 到 模型 目 动 生成 的 新 画作 上 。C@magenta/music 提供 了 一 个 可 以 目 动 
谱写 钢 从 曲 的 模型 ( 它 可 以 日 动 将 音频 转换 成 乐谱 ， 即 所 谓 的 “audio-to-score”)。MusicRNN 模 
型 则 是 一 种 “音律 的 语言 模型 ”(language model for melodies )， 可 以 基于 最 初 输入 的 一 小 段 种 子 
音符 ,“ 续 写 ” 出 完整 的 乐 诺 。 除 此 之 外 ， 还 有 很 多 有 趣 的 模型 。 

得 益 于 JavaScript 社 区 和 深度 学 习 社 区 的 开放 文化 和 分 享 精神 ， 预 训练 模型 的 规模 已 经 相当 
可 观 ， 并 且 仍 在 不 断 发 展 壮大 。 在 你 探索 次 度 学 习 的 过 程 中 ， 也 可 能 会 获得 一 些 有 趣 的 新 灵感 。 
这 些 新 灵感 或 许 能 帮 到 别 的 开发 者 。 届 时 你 也 可 以 训练 和 封装 目 己 的 预 训练 模型 ， 并 通过 npm 
包 的 形式 将 它们 分 享 给 社区 。 通 过 和 你 的 模型 的 用 户 交 流 ， 并 不 断 改 进 模型 ， 你 会 真正 成 为 
JavaScript 冻 度 学 习 社 区 的 一 员 。 

13.2.4 可 能 性 空间 

有 了 这 些 层 和 预 训练 的 模型 作为 基础 模块 , 可 以 构建 哪些 实用 又 有 趣 的 模型 呢 ? 记 住 , 构建 
深度 学 习 模 型 就 和 玩乐 高 积木 一 样 。 通 过 拼接 层 和 模型 ， 可 以 将 任意 输入 映射 到 任意 输出 上 ， 只 
要 可 以 将 这 些 输入 和 输出 表示 为 张 量 , 并 且 层 与 层 之 间 的 输入 张 量 和 输出 张 量 的 形状 是 兼容 的 即 
可 。 这 些 层 拼 接 出 的 模型 会 对 输入 进行 可 微 的 几何 转换 。 只 要 这 种 关系 没有 复 末 到 超出 模型 的 容 
量 , 模型 就 可 以 学习 输入 和 输出 之 间 的 映射 关系 。 在 这 个 框架 下 ,模型 几乎 有 无 限 的 可 能 。 本 市 
中 会 展示 一 些 有 趣 的 示例 , 希望 它们 能 使 你 不 拘泥 于 本 书 着 重 介 绍 的 基本 分 类 和 回归 问题 , 并 激 
励 你 进行 一 些 更 深入 的 探索 。 

下 面 列 出 的 应 用 场景 是 按 输入 和 输出 的 数据 类 型 来 分 类 的 。 请 注意 , 其 中 很 大 一 部 分 可 能 超 
出 了 当前 深度 学 习 的 最 高 水 平 。 尺 管 只 要 训练 数据 充足 ,就 可 以 针对 任何 任务 训练 模型 ,但 在 有 
些 情况 下 ， 模 型 可 能 很 难 将 训练 成 果 沁 化 到 测试 数据 上 。 

口 将 回 量 映射 到 回 量 

加 预测 诊断 结果 : 将 病人 的 病例 映射 到 预测 的 治疗 结 
四 用 户 行为 预测 : 将 网 站 的 属性 映射 到 用 户 在 网 站 上 的 淤 在 行为 (包括 访问 量 、 点 击 行 
为 和 其 他 交互 行为 )。 
四 产品 质量 控制 : 将 产品 的 一 部 分 特征 映射 到 产品 的 市 场 反 啊 〈 在 不 同市 场 区 域 的 销售 
和 额 和 利润 )。 
口 将 岁 像 映射 到 回 量 
上 四 医学 影像 Al: 将 医学 影像 (例如 X 光 相 卢 ) 数据 映射 到 诊断 结 
四 运载 工具 的 自动 转向 : 将 摄像 头 的 图 像 数据 映射 到 运载 工具 的 控制 信号 ， 例 如 方向 盘 
转 回 。 
四 节食 助手 : 将 食物 和 沫 品 映射 到 其 对 健康 的 淤 在 影响 〈 例 如 热 值 和 过 人 敏 警告 )。 
加 化 妆 品 推荐 : 将 目 扫 照 片 映 射 到 推荐 的 化 妆 品 。 
口 将 时 间 序 列 映射 到 回 量 
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s 脑 机 接口 : 将 脑 电 图 (EEG ) 信号 映射 到 用 户 的 交互 行为 。 
@ 用户 行为 预测 : 将 用 户 的 历史 购物 记录 ( 例如 电影 或 图 书 购买 记录 ) 映射 到 未 来 购买 











其 他 产品 的 概率 。 
@ 预测 地 震 和 余震 : 将 地 震 仪 的 数据 序列 映射 到 地 震 和 余震 的 发 生 概率 。 
口 将 文本 映射 到 回 量 





m 邮件 分 类 : 将 邮件 内 容 映 射 到 通用 的 或 用 户 自 定义 的 标签 ( 例如， 工作 相关 、 家 庭 相 
关 、 垃 圾 邮件 等 ) 
a 作文 语法 打分 : 将 学 生 的 作文 映射 到 作文 评分 标准 。 
a 基于 语音 的 挂号 : 将 病人 的 症状 措 述 映射 到 病人 应 该 挂号 的 科室 。 
D 将 文本 映射 到 文本 
a 邮件 回复 建议 : 将 邮件 映射 到 一 组 可 能 的 回复 用 语 。 
a 针对 特定 领域 的 问题 回复 ; 将 客户 的 问题 映射 到 自动 生成 的 回复 。 
文章 梗概 : 将 长 篇 文章 映射 到 简短 的 梗概 。 
D 将 图 像 映射 到 文本 
m 自动 生成 图 像 的 文本 标注 : 为 输入 图 像 生成 一 段 能 概括 其 内 容 的 简短 文本 。 
a 为 有 视觉 障碍 的 人 提供 导航 指引 : 将 室内 和 室外 的 图 像 映射 到 导航 的 引导 话语 和 针对 
潜在 危险 的 提醒 ( 例如 出 口 和 障碍 物 的 位 置 ) 
D 将 图 像 映射 到 图 像 
a 图像 超 分 辩 率 重建 : 将 低 分 辩 率 的 图 像 映射 到 高 分 辩 率 的 图 像 。 
am 基于 图 像 的 三 维 重建 : 将 普通 图 像 映射 到 图 中 相同 物体 不 同 角度 的 图 像 。 
D 将 图 像 和 时 间 序列 映射 到 向 量 
m 医生 的 多 维度 诊断 助手 : 将 病人 的 医学 影像 ( 例如 核磁 共振 影像 ) 和 关键 指标 的 历史 
数据 ( 血压 、 心 率 等 ) 映射 到 对 诊断 结果 的 预测 。 
D 将 图 像 和 文本 映射 到 文本 
a 基于 图 像 的 问题 回复 : 将 图 像 和 相关 问题 的 文字 描述 ( 例如 二 手 车 的 图 像 和 关于 它 做 
工 和 生产 年 份 的 问题 ) 映射 到 回复 。 
D 将 图 像 和 向 量 映射 到 图 像 
a 服装 和 化 妆 品 的 虚拟 试 穿 和 试用 : 将 用 户 的 自拍 照片 和 化 妆 品 或 服装 的 向 量 表示 映射 
到 用 户 使 用 或 穿戴 该 产品 的 图 像 。 
D 将 时 间 序 列 数据 和 向 量 映射 到 时 间 序 列 数据 
a 音乐 风格 迁移 : 将 乐谱 ( 例如 用 音符 组 成 的 时 间 序 列表 示 的 古典 音乐 乐谱 ) 和 想 要 的 
新 音乐 风格 ( 例如 贾 士 乐风 格 ) 映射 到 用 新 音乐 风格 编写 的 新 乐谱 。 
你 可 能 已 经 发 现 , 以 上 类 别 中 最 后 四 个 的 输入 数据 类 型 是 混合 型 的 。 科 技 发 展 至 今 , 人 们 生 
活 中 的 绝 大 部 分 东西 已 经 数字 化 ,并 且 可 以 用 张 量 表示 。 因 此 ， 只 要 你 的 想象 力 足够 丰富 ,并 且 
有 充足 的 训练 数据 ,深度 学 习 的 潜力 就 是 不 可 估量 的 。 尽 管 任何 映射 关系 都 是 可 能 的 ,但 并 不 是 
任何 映射 关系 都 是 可 行 的。 下 一 节 中 将 讨论 深度 学 习 不 能 做 什么 。 43 



































13.2.5 ”深度 学 习 的 局 限 性 


这 度 学 习 的 应 用 评 力 几乎 是 无 穷 的 , 因此 很 容易 高 舍 深 度 神 经 网 络 的 能 力 , 并 且 对 其 解决 问 
懒 的 能 力 过 于 和 所 观 。 本 市 中 将 简要 讨论 深度 学 习 领 域 仍 存 在 的 一 些 局 限 性 。 


神经 网 络 看 待 世界 的 方式 与 人 不 同 

人 们 对 深度 学 习 的 一 大 误解 是 将 其 过 度 拟 人 化 ( anthropomorphization )。 也 就 是 说 ， 将 深度 
神经 网 络 看 作对 人 的 感知 与 认 知 的 模仿 。 将 次 度 神 经 网 络 拟人 化 在 好 几 个 层面 是 明显 错误 的 。 首 
和 完 ， 当 人 们 尝试 理解 某 个 感知 性 刺激 (例如 小 女孩 的 面部 图 像 或 牙刷 图 像 ) 时 ， 他 们 不 仅 会 理解 
输入 的 亮度 和 色彩 模式 ， 而 且 还 会 从 输入 的 看 似 随 机 的 模式 中 提取 出 次 层 的 、 更 重要 的 含义 ( 例 
如 图 像 中 有 小 女孩 、 有 牙刷 ， 以 及 两 者 之 间 的 关联 性 )。 深 度 神 经 网 络 的 工作 原理 与 人 脑 完全 不 
同 。 对 于 一 个 能 将 图 像 输入 映射 到 文本 输出 的 图 像 标 注 模型 而 言 , 将 其 理解 为 能 像 人 脑 一 样 理解 
图 像 的 含义 是 错误 的 。 在 有 些 场 景 中 ， 只 要 实际 测试 数据 和 训练 所 用 的 图 像 稍 有 不 同 ， 就 可 能 
致 模型 后 成 看 起 来 很 蕊 诞 的 文本 标注 ( 见 图 13-2 )。 
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误 判 “一 个 手持 棒球 棍 的 小 男孩 ” 





图 13-2 ”基于 深度 学 习 的 图 像 标 注 模 型 的 失败 案例 


当 给 模型 输入 对 抗 性 样 例 ( adversarial example ) 时 ,深度 神经 网 络 对 输入 数据 的 特殊 人 处理 方 
式 与 人 脑 的 处 理 方式 之 间 的 区 别 就 更 为 明显 了 。, 对抗 性 样 例 指 专门 用 来 欺骗 机 顶 学 习 模 型 并 诱导 
其 犯错 的 样 例 。 就 像 在 7.2 市 中 寻找 能 够 最 大 激活 convnet 过 滤 天 的 网 像 示例 所 展示 的 那样 ， 可 
以 通过 在 输入 空间 进行 梯度 上 升 来 最 大 化 convnet 过 滤器 的 激活 函数 输出 。 这 个 概念 可 以 进一步 
扩展 到 输出 的 概率 值 上 , 因此 也 可 以 通过 在 输入 空间 进行 梯度 上 升 来 最 大 化 模型 对 于 特定 输出 类 
别 的 概率 仁 。 所 以 ， 只 要 在 原本 输入 的 大 熊猫 网 像 上 再 加 上 一 个 “长 臂 猴 类 别 梯度 ”， 就 可 以 让 
模型 将 图 像 误 判 成 长 辟 猿 ( 见 图 13-3 )。 然 而 ， 此 时 的 输入 图 像 对 于 人 类 而 言 并 没有 任何 肉眼 可 
见 的 变化 。 这 是 因为 “长 臂 狂 类别 梯度 ”看 起 来 就 和 图 像 噪声 一 样 ， 并 且 尺 寸 非 党 小 。 
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大 熊猫 长 辟 猿 | 
长 臂 猿 类 别 梯度 






对 抗 性 样 例 


图 13-3 对抗 性 样 例 : 肉眼 不 可 见 的 变化 可 以 诱导 深度 convnet 的 分 类 结 采 出 错 。 更 多 关 
于 这 度 神经 网 络 的 对 抗 性 样 例 攻 击 的 讨论 ， 参 见 OpenAI 网 站 文章 “Attacking 


Machine Learning with Adversarial Examples 


由 此 可 见 , 计算机 视觉 领域 的 深度 神经 网 络 并 不 能 真正 理解 图 像 , 至 少 不 能 像 人 类 一 样 理 解 。 
人 类 的 学 习 方式 和 论 度 学 习 的 学 习 方 式 还 有 一 个 重要 区 别 , 即 当 样 例 数 有 限时 的 汉 化 能 力 。 闪 度 
神经 网 络 可 以 对 样 例 进行 局 部 泛 化 (local generalization )。 图 13-4 中 展示 了 一 个 学 习 场 景 ， 其 中 
深度 神经 网 络 和 人 类 需要 通过 少量 的 训练 样 例 ( 比如 8 个 样 例 )， 学 习 这 一 类 数据 在 二 维 参数 空 
间 ( parametric space ) 中 的 边界 。 对 于 这 个 任务 ， 人 类 会 很 快意 识 到 这 类 数据 的 边界 应 该 是 平滑 
的 , 并 且 它 们 的 所 处 的 区 域 应 该 是 互相 连接 的 ,因此 会 围绕 所 有 的 样 例 画 一 个 封闭 的 圈 作 为 预 估 
边界 。 和 人 类 不 同 ,神经 网 络 欠 缺 抽 象 思 维 能 力 和 先 验 知识 。 因 此 ， 它 会 为 每 个 样 例 专门 画 一 个 
不 规则 的 边界 ， 这样 就 导致 模型 对 少数 训练 样本 的 严重 过 拟 合 。 在 训练 样 例 之 外 的 新 样 例 上 ， 由 
此 训练 得 到 的 模型 泛 化 能 力 会 非常 差 。 虽然 增加 训练 样本 可 以 提升 神经 网 络 的 沁 化 能 力 , 但 在 实 
际 应 用 场景 中 , 这 并 不 总 是 可 行 的 。 问题 的 关键 在 于 , 神经 网 络 是 从 头 专 门 为 这 一 个 问题 创建 的 。 
和 人 类 的 每 一 个 个 体 不 同 ， 它 没有 任何 可 用 的 先 验 知识 ， 因 此 也 不 知道 对 现实 世界 该 抱 有 何 种 
“期 待 ”。 ”当前 的 深度 学 习 算 法 存在 一 个 重大 局 限 : 需要 准备 大 量 手动 标注 的 训练 数据 ， 才 能 训 
































Q) 有 一 些 研究 正在 尝试 增强 模型 的 路 领域 知识 共享 能 力 。 研 究 者 会 让 同一 个 深度 神经 网 络 执行 很 多 不 同 的、 看 似 互 
不 相关 的 任务 (参见 Lukasz Kaiser 等 人 的 文 草 “One Model To Learn Them All”)。 但 这 种 多 任务 模型 还 没有 被 广 
泛 使 用 。 





406 第 13 章 总 结 与 展望 
练 出 有 较 好 泛 化 准确 率 的 深度 神经 网 络 。 这 里 介绍 的 正 是 其 背后 的 根本 原因 。 


同一 组 数据 点 


或 经 验 e 





局 部 省 化 : 机 禹 学 习 极限 泛 化 : 人 类 的 
模型 的 泛 化 能 沁 化 能 力 


图 13-4 ”深度 学 习 模型 的 局 部 谤 化 (local generalization ) 能 力 和 人 类 的 极限 泛 化 
( extreme generalization ) 能 力 的 对 比 


13.3” 帝 度 尝 习 的 发 展 趋势 


正如 上 文 所 讨论 的 ， 座 度 学 习 在 近年 来 取得 了 非凡 的 成 就 ， 但 仍 存在 一 些 局 限 。 不 过 它 不 会 俘 
沛 不 前 ， 事 实 上 ， 它 正 以 令 人 叹为观止 的 速度 持续 演进 着 。 因 此 ， 在 不 久 的 将 来 ， 这 些 局 限 中 的 一 
部 分 可 能 会 被 突破 。 本 世 内 容 是 对 未 来 几 年 中 , 我 们 将 目睹 的 次 度 学 习 领 域 的 重大 突破 的 合理 猜想 。 
口 首先 ， 无 监督 式 学 习 〈unsupervised learning ) 和 半 监 督 式 学 习 ( semisupervised learning ) 
可 能 会 有 重大 发 展 。 这 会 对 所 有 次 度 学 习 子 领域 产生 深远 的 影响 ， 因 为 虽然 有 标签 数据 
集 非 党 罕见 上 且 成 本 高 昂 ， 但 无 标签 数据 集 在 各 个 商业 领域 都 非常 充足 。 如 采 能 发 明 一 种 
方法 ， 用 少量 的 有 标签 数据 引导 对 大 量 无 标签 数据 的 和 学习， 那么 闪 度 学 习 领 域 会 发 掘 出 
许多 新 的 应 用 场景 。 
口 其 次 ， 深 度 学 习 的 便 件 会 不 断 提 升 ， 产 生出 越 来 越 强 大 的 神经 网 络 加 速 郑 〈 例 如 下 一 代 
的 张 量 处 理 器 ”)。 这 样 ， 研 究 者 可 以 用 更 大 规模 的 数据 集训 练 出 更 强大 的 神经 网 络 。 可 
以 预见 ， 很 多 机 融和 学 习 任务 当前 的 最 佳 准 确 座 纪 录 在 未 来 会 被 打破 。 这 些 机 需 学 习 任 务 
包括 计算 机 视觉 、 语 音 识别 、 目 然 语 言 处 理 和 生成 式 模型 。 
口 模型 的 架构 设计 和 超 参 数 优化 会 越 来 越 目 动 化 。 这 个 趋势 已 经 可 以 看 到 一 些 凋 头 了 ， 其 
中 具有 代表 性 的 是 AutoML2> 和 Google Vizier* 等 技术 。 























GD 参见 Norman P Jouppi 等 人 的 文章 “In-Datacenter Performance Analysis of a Tensor Processing Unit™”。 

@) 参见 Barret Zoph 和 Quoc V. Le 的 文章 “Neural Architecture Search with Reinforcement Learning”。 

(3) 参见 Daniel Golovin 的 文章 “Google Vizier 一 A Service for Black-Box Optimization”, 刊载 于 Proc. 23rd ACM SIGKDD 
International Conference on Knowledge Discovery and Data Mining，2017 年， 第 1487~1495 页 。 


13.4 继续 探索 的 一 些 指引 407 


口 神经 网 络 模块 的 共 圣 和 可 复 用 性 会 进一步 提升 。 基 于 预 训练 模型 的 迁移 学 习 领 域 会 更 上 
一 层 楼 。 顶 尖 的 深 度 学 习 模 型 正在 变 得 日 益 强 大 和 通用 。 它 们 训练 所 用 的 数据 集 的 规模 
也 在 不 断 增 长 。 因 为 自动 化 的 架构 搜索 和 超 参数 调 优 (参见 前 两 个 预测 )， 所 以 这 些 模型 
有 时 会 消耗 巨大 的 算 力 。 因 此 ， 和 不 断 重 新 训练 相 比 ， 复 用 这 些 预 训练 模型 就 成 了 一 个 
更 合理 、 更 经 济 的 选择 。 这 些 模型 可 以 二 接 用 于 推 逆 ， 也 可 以 用 于 迁移 学 习 。 在 某 种 程 
度 上 ， 帝 度 学 习 和 传统 的 软件 工程 变 得 更 为 接近 了 ， 因 为 它们 都 需要 依赖 并 复 用 高 质量 
的 软件 库 ， 并 由 此 实现 整个 领域 的 标准 化 和 高 速 发 展 。 

口 深 度 学 习 可 能 会 找到 一 些 新 的 应 用 领域 。 在 这 些 新 领域 ， 它 会 被 用 来 改进 现 有 的 解决 方 
案 ， 同 时 开启 一 些 新 的 应 用 场景 。 就 我 们 所 知 ， 潜 在 的 应 用 场景 真 的 是 无 穷 的 。 这 些 新 
领域 包括 : 农业、 金融、 教育、 交通、 医疗 、 时 尚 、 体 育 和 娱乐 。 对 于 次 度 学 习 从 业者 
而 言 ， 这 些 领域 综 藏 看 无 限 的 机 遇 。 

口 随 着 深度 学 习 渗 透 越 来 越 多 的 应 用 领域 , 人 们 会 越 来 越 天 注 如 何在 边 绿 设备 (edge device ) 
上 进行 深度 学 习 ， 因 为 这 些 边 缘 设备 是 最 接近 终端 用 户 的 。 因 此 ， 座 度 学 习 领 域 可 能 会 
发 展 出 一 些 更 轻 量 、 更 方 能 的 神经 网 络 架 构 ， 并 能 达到 和 当前 大 型 模型 相 匹 敌 的 预测 准 
确 率 和 速度 。 

上 上 述 的 所 有 预测 都 会 影响 JavaScript 深度 学 习 ， 其 中 的 后 三 个 预测 和 JavaScript 猴 度 学 习 尤 

其 密 不 可 人 分。 拭目以待 吧 ， 在 不 远 的 将 来 ，TensorFlow.js 框架 中 一 定 会 出 现 一 些 更 强大 且 更 高 效 
的 模型 。 


13.4 ”继续 探索 的 一 些 措 引 


作为 临别 前 的 寄语 , 我 们 还 想 给 你 一 些 指引 , 而 望 能 够 帮助 你 在 该 完 本 书后 继续 不 断 学 习 并 
更 新 目 己 的 知识 和 技能 。 尽管 之 前 有 一 段 长 达 数 十 年 的 盘 伏 期 , 但 是 我 们 今天 所 知 的 现代 这 度 学 
习 只 有 不 过 数 年 的 历史 。 随 厦 目 2013 年 以 来 投资 和 人 研究 人 员 的 指数 级 增长 ， 诬 度 学 习 的 整个 领 
域 都 在 极速 演进 中 。 本 书 介绍 的 很 多 内 容 可 能 不 久之 后 就 会 过 时 , 但 真正 重要 的 是 深度 学 习 的 核 
心思 想 〈 从 数据 中 学 习 、 减 少 特 征 工程 的 人 力 投 入 、 一 层 接 一 层 的 表示 转换 )， 它 们 很 可 能 会 贸 
存 很 长 一 段 时 间 。 更 重要 的 是 , 通过 阅读 本 书 所 获得 的 基础 知识 可 以 帮助 你 目 主 学 习 座 度 学 习 领 
域 的 新 发 展 和 新 趋 舅 。 值 得 庆 秆 的 是 ， 这 个 领域 的 文化 非常 开放 ， 其 中 最 前 涪 的 发 展 〈 包 括 很 多 
数据 集 ) 都 可 以 通过 公开 且 人 免费 的 预 印 本 ， 以 及 公开 的 博文 和 推 文 获取 。 以 下 列举 了 一 些 你 应 该 
优先 了 解 的 资源 。 















































13.4.1 在 Kaggle 上 练习 解决 实际 的 机 器 学 习 问 题 


一 种 有 效 地 获取 实际 机 融 学 习 ( 尤其 是 深度 学 习 ) 经 验 的 方法 是 参与 Kaggle 组 织 的 苋 赛 。 
真正 学 会 机 带 学 习 的 唯一 方法 是 自己 动手 编程 构建 模型 并 为 其 调 优 ， 这 也 是 本 书 所 秉持 的 哲学 。 
从 本 书 提 供 的 大 量 供 你 研究、 微调 和 修改 的 代码 示例 就 可 见 一 斑 。 但 是 对 于 如 何 实 际 进行 机 可 学 
习 而 言 , 这 些 都 没有 你 自己 用 TensorFlow.js 这 样 的 框架 从 头 构建 一 个 模型 和 机 需 学 习 系 统 来 得 有 
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效 。 在 Kaggle 平台 上 ， 你 可 以 找到 大 量 不 断 更 新 的 数据 科学 竞赛 和 数据 集 ， 其 中 很 多 都 和 族 度 
学 习 有 关 。 

尽管 大 多 数 Kaggle 用 户 会 采用 Python 生态 中 的 工具 (例如 TensorFlow 和 Keras ) 解决 比 客 
中 的 问题 ,但 是 Kaggle 上 的 绝 大 部 分 数据 集 是 适用 于 所 有 编程 语言 的 。 因 此 ， 完 全 可 以 用 
TensorFlow.js 这 样 的 非 Python 深度 学 习 框 架 解 决绝 大 部 分 的 Kaggle 问题 。 通 过 实际 参与 一 些 苋 
赛 (无 论 是 个 人 还 是 组 队 )， 你 可 以 切 吴 体会 本 书 介 绍 的 一 些 高 级 最 佳 实践 的 实用 性 ， 尤 其 是 超 
参数 调 优 和 避免 验证 集 过 拟 合 的 部 分 。 








13.4.2 了 解 arXiv 上 的 最 新 进展 


和 一 些 其 他 的 学 术 领 域 不 同 , 深度 学 习 人 研究 是 以 完全 公开 的 方式 进行 的 。 该 领域 中 的 论文 都 
可 以 在 定稿 并 通过 评审 后 公开 免费 地 获取 。 同 时 ， 该 领域 中 的 很 多 软件 是 开源 的 。arXiv ( 旋 作 
“archive”。 名 字 中 的 XX 来 日 希腊 字母 YX， 谈 作 “ 西 ”) 是 一 个 公开 免费 的 预 印 本 服务 闹 ， 包 含 来 目 
数学 、 物 理 和 计算 机 科学 领域 的 论文 。 对 于 机 带 学 习 和 次 度 学 习 领 域 , 它 已 成 为 发 表 前 沿 论 文 的 首 
选 , 因此 也 目 然 是 保持 目 己 的 专业 知识 与 时 俱 进 的 首选 。 这 样 的 开放 平台 使 整个 领域 可 以 以 极 快 的 
步伐 发 展 。 这 是 因为 在 有 新 发 现 和 新 发 明 时 ， 任 何人 都 可 以 在 第 一 时 间 阅 恋 、 品 评 和 借鉴 。 

使 用 ArXiv 的 一 个 不 便 是 每 天 发 表 的 新 论文 太 多 了 ,因此 不 可 能 每 个 都 浏览 一 过。 由 于 ArXiv 
上 很 多 论文 都 没有 同行 评审 ,因此 很 难 判别 其 中 哪些 是 重要 的 、 高 质量 的 。 社 区 中 有 一 些 工 具 可 
以 帮助 解决 这 些 不 便 。 例 如 ， 一 个 叫 作 ArXiv Sanity Preserver ( 意思 是 “ArXiv 理智 保护 大 ”) 的 
网 站 可 以 为 你 推荐 新 的 ArXiv 论文 ,同时 帮助 你 跟踪 闪 度 学 习 的 某 个 垂直 领域 (例如 目 然 语 言 处 
理 和 目标 检测 ) 的 新 进展 。 此 外 ， 你 还 可 以 使 用 谷歌 学 术 搜索 ( Google Scholar ) 服务 跟踪 你 所 
关注 的 领域 和 作者 发 表 的 新 论文 。 























13.4.3 ”探索 TensorFlow.js 生态 


TensorFlow.js 的 相关 文档 、 指 南 、 教 程 、 博 客 和 开源 项 目 都 在 甘 勃 发 展 中 ， 详 情 参 见 图 灵 社 
区 : http://ituring.cn/book/2813。 


13.5 ”寄语 


这 就 是 本 书 的 全 部 内 容 啦 ! 希望 你 学 到 了 一 些 关 于 AI 和 深度 学 习 的 理论 知识 ， 并 且 知 道 如 
何 用 JavaScript 和 TensorFlow.js 完成 一 些 基本 的 闪 度 学 习 任 务 。 就 像 任 何 有 趣 又 实用 的 东西 一 样 ， 
对 AI 和 深度 学 习 的 理论 学 习 是 一 个 不 断 积累 并 且 持 续 终 生 的 过 程 ,学 习 将 AI 和 深度 学 习 用 于 人 解 
决 实际 问题 也 是 如 此 。 这 一 点 对 于 深度 学 习 从 业者 和 业余 爱好 者 同样 适用 。 尺 管 深度 学 习 已 经 取 
得 了 很 多 非 几 的 成 就 , 但 是 其 育 后 绝 大 部 分 基础 问题 仍 有 竺 回答。 次 度 学 习 中 强 藏 的 绝 大 部 分 淤 
能 也 有 待 开发 。 请 保持 学 习 、 质 疑 、 人 研究 、 想 象 、 尝 试 、 人 创造 和 分 享 ! 期 得 看 到 你 用 深度 学 习 和 
JavaScript 取得 的 成 果 ! 


























安 滨 ts-node-gpus 及 其 依 正 


在 使 用 GPU 加 速 版 的 TensorFlow.js (tfjs-node-gpu ) 前 ， 必 须 先 在 计算 机 上 安装 CUDA 和 
CuDNN。 然 而 ， 这 两 个 软件 都 只 有 在 搭配 与 CUDA 兼容 的 NVIDIA GPU 时 才能 使 用 。 因 此 , 使 
用 GPU 加 速 版 的 TensorFlow.js 前 ， 必 须 先 确保 你 的 计算 机 的 GPU 符合 上 述 要 求 ， 详 见 NVIDIA 
Developer 网 站 页 面 “推荐 开发 者 使 用 的 GPU”。 

下 面 列 出 了 在 Linux 操作 系统 和 Windows 操作 系统 上 安装 驱动 和 软件 包 的 具体 流程 。 目 前 
tfjs-node-gpu 只 文 持 这 两 种 操作 系统 。 








A.1 在 Linux 上 安 闭 切 s-node-gpu 


(下 面 的 流程 会 假设 你 的 计算 机 已 经 安装 了 Nodejs 和 npm, 并 且 已 将 其 添加 到 系统 路 径 中 。 
如 果 还 没 安装 它们 ， 可 以 从 Node.js 官网 下 和 载 。 

(2) 从 NVIDIA Developer 网 站 下 载 CUDA 工具 包 (CUDA Toolkit )。 确 保 你 选择 的 CUDA 工 
具 包 版 本 和 ts-node-gpu 版 本 兼容 。 本 书写 作 时 ， 人 区 S-node-sgpu 的 最 新 版 为 1.2.10， 和 CUDA 工 
具 包 版 本 10.0 兼容 。 在 接 下 来 的 步骤 中 ， 请 确保 选择 正确 的 操作 系统 相关 信息 ， 包 括 操作 系统 
类 型 (Linux )、 系 统 架 构 ( 对 主流 的 英特尔 CPU 而 言 为 x86 64 架构 )、Linux 发 行 版 及 其 版 本 。 
在 下 载 的 最 后 一 步 , 该 页 面 会 提供 多 个 安装 包 类 型 供 你 选择 .下面 的 步骤 假设 你 选择 的 是 “runfile 
(local)” 文 件 ( 而 不 是 “deb (local)” 安 装 包 )。 

(3) 在 保存 已 下 载 文件 的 文件 夹 中 执行 以 下 命令 ， 将 刚 下 载 的 文件 变 成 可 执行 文件 。 


chmod +x cuda 10.0.130 _ 410.48 linux.run 























(4) 使 用 suao ( 即 管理 员 权 限 ) 运行 runfile 文件 。 注 意 ， 如 果 你 本 地 未 安装 NVIDIA GPU 
驱动 或 驱动 版 本 较 旧 ， 在 安装 CUDA 工具 包 的 过 程 中 ， 安 装 软件 可 能 还 会 提示 你 安装 或 更 新 驱 
动 。 如 果 确 实 如 此 , 则 必须 先 停止 Linux 系统 的 义 服 务 器 ,切换 到 只 有 shell 窗口 的 模式 。 在 Ubuntu 
和 Debian 发 行 版 中 ， 可 以 使 用 快捷 键 Ctrl-Alt-Fl 进入 只 有 shell 窗口 的 模式 。 

请 根据 屏幕 上 的 指引 完成 CUDA 工具 包 的 安装 流程 。 安 装 完毕 后 ， 重 启 系统 。 如 果 当 前 正 
处 于 只 有 shell 窗口 的 模式 ， 则 可 以 通过 重启 计算 机 回 到 平常 的 图 形 界面 模式 。 

(5) 如 果 你 顺利 地 完成 了 第 (3) 步 ， 就 可 以 在 命令 行 中 使 用 nvidia-smi 命令 ， 因 为 它 会 被 自 
动 添加 到 系统 的 搜索 路 径 中 。 可 以 用 该 命令 查看 GPU 的 状态 ， 能 够 提供 的 信息 包括 GPU 型 号 、 
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温度 、 风 局 速度 、 人 处 理 磊 占用 率 和 内 存 占 用 率 ， 以 及 显卡 驱动 版 本 等。 在 用 ts-node-gpu 训练 深 
度 神经 网 络 时 ， 可 以 用 它 非常 便捷 地 实时 监测 GPU 的 状态 。nviqdia-smi 命令 的 输出 如 下 ( 注 
意 ， 本 示例 中 的 计算 机 装 有 两 块 NVIDIA 显卡 )。 


























十 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 + 
NVIDIA-SMI 384.111 Driver Version: 384.111 
一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 十 
GPU Name Persistence-M| Bus-Id Disp.A Volatile Uncorr. ECC 
Fan Temp Perf Pwr:Usage/Cap Memory-Usage GPU-Util Compute M. 
EC RCR SRS 
0 Quadro P1000 Off 00000000:65:00.0 On N/A 
41% 53C PO ERR! / N/A 620MiB / 4035MiB 0% Default 
十 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 + 
1 Quadro M4000 Off 00000000:B3:00.0 Off N/A 
46% 30C P8 11W / 120W 2MiB / 8121MiB 0% Default 
十 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 + 
十 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 + 
| Processes GPU Memory | 
| GPU PID Type Process name Usage | 
Ee | 
| 0 3876 G /usSr/11ib/xorg/Xorg 283M1iB | 
十 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 + 


(6) 将 64 位 的 CUDA 工具 包 文 件 路 径 添加 到 LD_LIBRARY_PATH 环境 变量 中 。 如 果 你 使 用 
的 是 bash shell， 可 以 直接 将 下 面 的 命令 添加 到 .bashrc 文件 : 


export LD LIBRARY PATH="/usr/local/cuda/l1ib64:s{PATH}'" 


tfjs-node-gpu 在 启动 时 会 通过 LD_LIBRARY_PATH 环境 变量 找到 需要 动态 加 载 的 库 文件 。 

(7) 从 NVIDIA Developer 网 站 下 载 CuDNN 为 什么 除了 CUDA 以 外 ,还 要 安装 CuDNN 呢 ? 
这 是 因为 CUDA 是 一 个 通用 的 计算 库 ， 它 的 用 途 不 仅 限 于 深度 学 习 〈 例 如 ， 还 可 用 于 流体 力学 
的 计算 )。CuDNN 是 由 NVIDIA 基于 CUDA 开发 的 ， 用 于 加 速 深度 神经 网 络 的 运算 。 

下 载 CuDNN 前 ， 你 可 能 还 需要 在 NVIDIA 官网 创建 一 个 账户 并 完成 一 份 调查 问卷 。 选 择 
CuDNN 版 本 时 ,确保 选择 和 之 前 的 步骤 中 选择 的 CUDA 工具 包 版 本 兼容 的 版 本 。 例 如 ， 如 果 之 
前 选 的 是 CUDA 工具 包 10.0， 此 处 就 应 该 选 CuDNN 7.6。 

(8) 和 CUDA 工具 包 不 同 ， 此 处 下 载 的 CuDNN 并 不 是 一 个 可 执行 的 安装 包 ， 而 是 一 个 用 tar 
工具 生成 的 压缩 包 , 其 中 包含 大 量 的 动态 库 文件 和 C/C++ 头 文件 。 可 以 用 下 列 命令 将 其 解压 并 复 
制 到 合适 的 文件 中 。 


tar xzvf cudnn-10.0-1linux-x64-v7.6.4.38.tgz 
cp cuda/l1ib64/* /usr/local/cuda/l1ib64 
cp cuda/include/* /usr/local/cuda/include 


(9) 至 此 ， 所 需 的 驱动 和 库 束 已 经 安 疲 完毕 了 。 可 以 通过 在 Node.js 中 导入 二 s-node-gpu 模块 
来 快速 确认 CUDA 和 CuDNN 是 否 安装 成 功 。 


npm i @tensorflow/tfjs @tensorflow/tfjs-node-gpu 
node 
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node 命令 执行 后 ， 在 Node.js 的 命令 行 中 输入 下 面 的 代码 : 


> const tf = regquire('@tensorflow/tfjs').; 
> regquire('@tensorflow/tfjs-node-gpu'); 


如 果 一 切 顺 利 , 会 看 到 如 下 的 多 行 日 志 输 出 。 这 说 明 二 s-node-gpu 可 以 找到 并 使 用 计算 机 里 
的 GPU (取决 于 系统 配置 ， 也 可 能 是 多 个 GPU )。 


2018-09-04 13:08:17.602543: 工 

tensorflow/core/common runtime/gpu/gpu_ device.cc:1405] Found device 0 
with properties: 

name: Quadro M4000 major: 5 minor: 2 memoryClockRate (GHz): 0.7725 
pciBusID: 0000:b3:00.0 

totalMemory: 7.93GiB freeMemory: 7.86G1B 

2018-09-04 13:08:17.602571: 工 

tensorflow/core/common runtime/gpu/gpu_ device.cc:1484] Adding visible 
gpu devices: 0 

2018-09-04 13:08:18.157029: 工 

tensorflow/core/common runtime/gpu/gpu _ device.cc:965|] Device 
interconnect StreamExecutor with strength 1 edge matrix: 

2018-09-04 13:08:18.157054: 工 








tensorflow/core/common runtime/gpu/gpu_device.cc:971] 0 
2018-09-04 13:08:18.157061: 
tensorflow/core/common runtime/gpu/gpu_ device.cc:984] 0: N 

















2018-09-04 13:08:18.157213: 
tensorflow/core/common runtime/gpu/gpu device.cc:1097] Created 
TensorFlow device (/job:localhost/replica:0/task:0/device:GPU:0 with 
7584 MB memory) -> physical GPU (device: 0, name: Quadro M4000, pci bus 
id: 0000:b3:00.0, compute capability: 5.2) 


(10) 现在 一 切 准 备 就 绪 ， 可 以 目 由 地 使 用 区 S-node-gpu 的 功能 了 。 不 过 在 开始 使 用 前 ， 请 将 
以 下 依赖 洪 加 到 package.json 文件 中 如 有 果实 际 版 本 比 此 处 列 出 的 更 新 ， 可 以 使 用 新 版 本 )。 








"dependencies": { 


"Qtensorflow/tfjs": "^0.12.6", 
"Qtensorflow/tfjs-node": "~^0.1.14", 


在 main.js 文件 中 ， 导 人 基本 依赖 ， 包 括 @tensorflow/tfjs 模块 和 @tensorflow/tfjs- 
node-gpu 模块 。 前 者 负责 提供 TensorFlow.js 的 API， 后 者 负责 用 在 CUDA 和 CuDNN 上 实现 的 
高 性 能 核 晒 数 完 成 TensorFlow.js 的 运算 。 


const tf = regquire('@tensorflow/tfjs'); 
require('@tensorflow/tfjs-node-gpu'); 











A.2 在 Windows 上 安 六 共 s-node-gpu 


(1) 确保 你 当前 使 用 的 Windows 操作 系统 和 CUDA 工具 包 兼 容 。CUDA 工具 包 不 支持 某 些 
Windows 版 本 以 及 32 位 架构 。 详 情 参 见 CUDA Toolkit Documentation 网 站 Installation Guide 
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Windows 中 的 1.1 市 “System Requirements”。 

(2) 下 面 的 流程 会 假设 你 的 计算 机 已 经 安装 了 Node.js 和 npm， 并 将 其 添加 到 了 系统 路 人 径 中 。 
如 采 还 没 安 痰 它们， 可 以 到 官网 下 载 。 

(3) 安装 Microsoft Visual Studio ,这 是 安装 CUDA 工具 包 的 一 个 必要 步骤 。Visual Studio 的 具 
体 版 本 请 参考 CUDA Toolkit Documentation 网 站 Installation Guide Windows 中 的 1.1 节 “System 
Requirements 。 

(4) 下 载 并 安装 Windows 版 的 CUDA 工具 包 ,确保 你 选择 的 CUDA 工具 包 版 本 和 二 s-node-gpu 
版 本 莱 容 。 本 书写 作 时 ，tfjs-node-gpu 的 最 新 版 为 1.2.10， 和 CUDA 工具 包 版 本 10.0 腓 容 。 选 择 
安装 包 时 ， 注 意 是 否 和 当前 的 Windows 版 本 匹配 。 共 有 两 个 Windows 版 本 可 选 '; Windows 7 和 
Windows 10。 安 次 需要 使 用 管理 员 权 限 。 

(5) 下 载 CuDNN。 选择 CuDNN 版 本 时 ,确保 选择 和 之 前 的 步骤 中 选择 的 CUDA 工具 包 版 本 
若 容 的 版 本 。 例如 , 如 果 之 前 选 的 是 CUDA 工具 包 10.0, 此 处 网 应 该 选 CuDNN 7.6。 下 载 CuDNN 
前 ， 可 能 还 需要 在 NVIDIA 官网 创建 一 个 账户 并 完成 一 份 调查 问卷 。 

(6) 和 CUDA 工具 包 的 安装 包 不 同 , 下 载 的 CuDNN 文件 是 一 个 zip 格式 压缩 包 。 解 压 后 , 你 
会 看 到 其 中 包含 三 个 文件 夹 : cuda/bin、cuda/include 和 cuda/lib/x64。 找 到 CUDA 工具 包 的 安装 
地 址 ， 默 认 安 装 路 径 看 起 来 类 似 C:/Program Files/NVIDIA CUDA Toolkit 10.0/cuda。 将 解压 出 来 
的 文件 复制 到 CUDA 工具 包 安 站 地 址 的 同名 子 文件 来 下 。 例 如 ， 应 该 将 解压 后 的 cuda/bin 文件 
夹 下 的 文件 都 复制 到 C:/Program Files/NVIDIA CUDA Toolkit 10.0/cuda/bin 文件 夹 下 。 这 一 步 可 能 
会 需要 管理 员 权 限 。 

(7) 安 厂 完 CUDA 工具 包 和 CuDNN 后 ， 重 局 操作 系统 。 对 于 刚 安 朔 的 CUDA 工具 包 和 
CuDNN， 必 须 先 重启 系统 ， 之 后 才能 正常 加 载 芒 s-node-gpu 模块 。 

(8) 安 狠 window-builgd-tools npm 包 。 这 是 在 下 一 步 安 处 @tensorflow/tfjs-node-gpu 


npm 包 前 的 必要 准备 步骤。 


npm install --add-python-to-path='true' --global windows-build-tools 





























(9) 安装 @tensorflow/tfjs npm 包 和 @tensorflow/tfjs-node-gpunpm 包 。 


npm -1 @tensorflow/tfjs @tensorflow/tfjs-node-gpu 


(10) 可 以 通过 在 Node.js 中 导入 切 s-node-gpu 模块 来 快速 确认 CUDA、CuDNN 以 及 npm 包 是 
否 安装 成 功 。 打 开 Node.js 的 命令 行 ， 并 输入 下 面 的 代码 : 


> const tf = require('@tensorflow/tfjs'); 
> regquire('@tensorflow/tfjs-node-gpu'); 


如 果 一 切 顺 利 ， 那 么 在 第 二 个 命令 执行 后 ， 你 会 在 控制 台中 看 到 tfjs-node-gpu 模块 打印 的 一 
些 日 志 。 这 些 日 志 包 含 启 用 了 CUDA 的 GPU 的 一 些 具体 信息 。 同 时 ， 这 意味 着 tfjs-node-gpu 已 
经 识别 出 了 计算 机 中 安装 的 GPU， 并 会 在 之 后 的 深度 学 习 程 序 中 使 用 它们 。 
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本 附录 将 聚焦 于 TensorFlow.js API 中 的 非 tf .Model 部 分 。 尽 管 tf.Model 提供 了 一 套 完 备 
的 模型 训练 、 评 估 和 推断 方法 ,但 在 处 理 tf .Mogdel 对 象 时 ， 仍 时 常会 涉及 非 tf .Model API 的 
使 用 。 下 面 列 出 了 两 个 稼 见 的 场景 。 

口 将 数据 转换 为 适合 作为 tf.Model 对 象 的 输入 的 张 量 格式 。 

口 将 tf.Model 对 象 生成 的 张 量 格式 的 预测 结果 转换 为 系统 别 的 部 分 可 以 使 用 的 格式 。 

就 像 接 下 来 即将 介绍 的 , 张 量 数据 格式 和 普通 数据 格式 间 的 转换 并 不 难 , 但 仍 有 一 些 值得 注 
意 的 特定 模式 和 使 用 方法 。 


B.1 张 量 的 创建 以 及 张 量 轴 的 使 用 规范 


正如 本 书 正 文中 所 提 到 的 , 张 量 只 是 数据 的 容 融 而 已 。 每 个 张 量 都 有 两 个 基本 属性 : 数据 类 
型 (atype ) 和 形状 ( shape )。dtype 负责 控制 每 个 张 量 可 以 存储 什么 样 的 值 。 每 个 张 量 只 能 
存 一 种 类 型 的 值 。 本 书写 作 时 ，TensorFlow.js( 版 本 0.13.5 ) 文 持 的 dtype 为 float32、int32 和 布 
尔 值 。 

shape 是 由 整数 组 成 的 数组 。 它 表示 张 量 中 有 多 少 元 素 ， 以 及 这 些 元 和 素 的 组 织 结构 。 因 此 ， 
可 以 将 它 看 作 张 量 这 个 数据 容 问 的 “形状 和 尺寸 ”( 见 图 B-1 )。 

形状 数组 的 长 度 叫 作 张 量 的 阶 (rank )。 例 如 ， 一 维 张 量 为 一 阶 ， 它 义 叫 作 向 量 。 一 维 张 量 
的 形状 为 包含 一 个 数 的 数组 ， 可 以 从 中 看 出 一 维 张 量 的 长 度 。 如 果 将 形状 的 阶 加 1， 就 会 得 到 一 
个 二 维 张 量 。 可 以 将 二 维 张 量 看 作 二 维 平 面 上 一 个 由 数组 成 的 网 格 〈 就 像 灰 度 图 像 一 样 )。 二 维 
张 量 的 形状 数组 由 两 个 数组 成 , 可 以 从 中 看 出 网 格 高 和 宽 。 继 续 增 加 形状 的 阶 ， 就 会 得 到 一 个 三 
维 张 量 。 如 图 B-1 中 的 示例 所 示 ， 可 以 将 三 维 张 量 看 作 由 数组 成 的 三 维 网 格 。 三 维 张 量 的 形状 数 
组 由 三 个 整数 组 成 , 可 以 从 中 看 出 三 维 网 格 在 三 个 维度 上 的 尺寸 。 你 应 该 已 经 看 出 了 阶 的 变化 规 
律 。 因 为 我 们 所 在 的 现实 世界 只 有 三 个 维度 ,所 以 很 难 直 观 地 想象 四 阶 张 量 ( 即 四 维 张 量 ) 是 什 
么 样子 的 。 四 维 张 量 是 很 多 模型 ( 例如 深度 convnet ) 的 常用 张 量 类 型 。TensorFlow.js 支持 的 最 
高 阶 数 为 六 。 事 实 上 ， 只 有 极 少 数 场 景 (例如 表示 视频 数据 时 ) 会 用 到 五 阶 张 量 ， 而 六 阶 张 量 就 
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更 少见 了 。 
tensor2d 
scalar tensorld (二 阶 ) 
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(四 阶 ) 
J [3 


pp 本 7 SZ 二 有 ze 4 了 区 一 ee 0 卫 
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图 B-1 零 阶 、 一 阶 、 二 阶 、 三 阶 和 四 阶 张 量 的 示例 


B.1.1 标量 ( 零 阶 张 量 ) 


标量 是 形状 为 空 数组 ( 即 [] ) 的 张 量 。 它 没有 任何 轴 ， 并 总 是 有 且 只 有 一 个 全。 可 以 用 下 面 
的 代码 ， 在 JavaScript 控制 台中 用 tf.scalar() 困 数 创 建 一 个 标量 (假设 你 已 经 提前 加 载 了 
TensorFlow.js， 并 且 可 以 用 tf 访问 其 方法 )。 


> const myScalar = tf.scalar(2018); 








O 


> myScalar.print().; 
‘Tensor 

2018 
> myScalar.dtype; 
"float32" 
> myScalar.shape; 


[ 
> myScalar.rank; 
0 


在 上 面 的 代码 片段 中 ， 我们 创建 了 一 个 仅 存 有 数值 2018 的 标量 张 量 。 就 和 预期 的 一 样 ， 它 


的 形状 是 一 个 空 数组 。 此 处 它 的 数据 类 型 为 默认 的 "float32" 类 型 。 如 果 想 要 将 dtype 强制 转 
换 为 整数 类 型 ， 在 调用 tf.scalar () 时 要 传人 一 个 额外 参数 ， a 


> const mylintegerScalar = tf.scalar(2018, 'int32'); 








> myIlintegerScalar.dtype; 
"int32" 





Qa 注意， 为 了 保持 简洁 和 结构 清晰 ， 此 处 省 略 了 JavaScript 控 制 台中 的 输出 ， 因 其 对 这 个 示例 没有 什么 助 益 。 
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为 了 提取 张 量 中 的 数据 ， 需 要 使 用 data () 这 个 异步 方法 。 这 个 方法 是 异步 的 ， 因 为 一 般 而 
言 ， 张 量 的 数据 可 能 不 在 计算 机 的 主 内 存 中 , 而 是 以 WebGL 材质 的 形式 存在 GPU 的 显存 中 。 从 
这 类 张 量 提取 数据 时 ， 需 要 使 用 一 系列 不 一 定 能 马上 得 到 绪 有 末 的 运算 。 同 时 ,我 们 也 不 而 望 这 些 
运算 阻塞 JavaScript 的 主线 程 。 这 就 是 为 什么 data () 方 法 是 异步 的 。 还 有 一 个 更 易于 使 用 的 同 
步 方法 datasync () ， 它 能 够 通过 轮 询 的 方式 获取 张 量 的 值 。 虽 然 使 用 起 来 很 方便 ,但 它 会 阻塞 
JavaScript 的 主线 程 ， 因 此 应 该 谨慎 使 用 aatasync() 〈 比 如， 可 以 在 调试 时 使 用 )， 尽 可 能 采用 
异步 的 daata() 方 法 。 

> arr = await myScalar.data(); 

Float32Array [2018] 

> 

1 


> arr[0| 
2018 


datasync() 的 使 用 方法 如 下 所 示 。 


> arr = myScalar.dataSync (); 
Float32Array [2018] 

> arr.length 

1 

> arrl0] 

2018 


从 以 上 代码 片段 的 运行 结果 可 以 看 出 ， 如 采 张 量 的 类 型 为 float32，data() 和 dataSync () 
方法 返回 的 值 为 JavaScript 的 Float32Array 原始 类 型 。 你 可 能 会 党 得 奇怪 , 为 什么 返回 的 不 是 
一 个 数值 呢 ?” 如 采 考 虑 到 其 他 形状 的 张 量 可 能 会 返回 包含 多 个 数值 的 数组 ， 这 一 点 就 不 难 理解 
了 。 对 于 int32 类 型 和 布尔 类 型 的 张 量 ，dqata() 和 datasync () 会 分 别 返回 Int32Array 和 
UintoArrays 

注意 ,尽管 标量 总 是 只 包含 一 个 元 素 , 但 这 并 不 意味 大 只 包含 一 个 元 系 的 张 量 就 是 标量 。 这 
是 因为 一 阶 或 更 高 阶 的 张 量 也 可 能 只 包含 一 个 元 每, 只 要 它 的 形状 数组 中 的 元 素 之 积 为 1 例如 ， 
一 个 形状 为 [1，1] 的 二 维 张 量 就 只 包含 一 个 元 素 ， 但 它 有 两 个 轴 。 



































B.1.2 tensor1d (一 阶 张 量 ) 


一 维 张 量 有 时 又 叫 作 一 阶 张 量 或 咎 量 。 一 维 张 量 有 且 仪 有 一 个 轴 。 它 的 形状 古 一 个 长 度 为 1 
的 数组 。 下 面 的 代码 会 在 控制 台中 创建 一 个 向 量 。 


> const myVector = tf.tensorld([-1.2, 0, 19, 78]); 
> myVector.shape; 

[4] 

> myVector.rank; 

1 

> await myVector.datal(); 

Float32Array (4) [-1.2, 0, 19, 78] 
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这 个 一 维 张 量 共有 四 个 元 系 ， 因此 也 可 称 为 四 维 向 量 。 但 是 注意 , 不 要 将 四 维 向 量 和 四 维 张 
量 弄 混 了 ! 四 维 向 量 是 一 个 仅 有 一 个 轴 的 一 维 张 量 , 它 共 包含 四 个 值 。 而 四 维 张 量 则 有 四 个 轴 ( 
个 轴 可 以 有 任意 数量 的 值 )。 维度 既 可 以 用 来 表示 茶 个 轴 上 的 元 素数 量 〈 例 如 四 维 回 量 ), 也 可 以 
用 来 表示 张 量 中 的 轴 数 〈 例 如 四 维 张 量 )， 因 此 很 容易 混 消 。 四 维 张 量 的 更 准 硝 、 攻 义 更 少 的 叫 
法 是 四 阶 张 量 。 尺 管 如 此 , 但 四 维 张 量 的 叫 法 还 是 很 第 见 。 在 绝 大 部 分 情况 下 ， 这 不 是 问题 ， 
为 可 以 根据 语 境 来 区 分 维度 的 含义 。 

对 于 标量 张 量 ， 可 以 用 qata () 和 datasync () 方 法 获取 一 维 张 量 的 元 素 值 ， 如 下 所 示 。 


> await ImyVector .qata() 
Float32Array (4) [-1.2000000476837158，0，19，78] 


此 外 也 可 以 使 用 data() 方 法 的 同步 版 本 ， 也 就 是 上 文 提 到 的 datasSync () 。 注 意 ， 
dataSync () 会 阻塞 UI 的 主线 程 ， 因 此 应 该 尽 可 能 避免 使 用 它 。 


> myVector.dataSync() 
Float32Array (4) [-1.2000000476837158, 0,， 19, 78|] 


右 要 获取 一 维 张 量 中 某 个 元 系 的 值 ， 可 以 直接 通过 索引 从 data() 或 qataSync() 返 回 的 
TypedArray 中 旋 取 ， 如 下 所 示 。 


> [await myVector.data()][2] 
19 





























B.1.3 ”tensor2d (二 阶 张 量 ) 


二 维 张 量 共有 两 个 轴 。 在 茶 些 场景 中 , 二 维 张 量 又 叫 作 和 矩阵 (matrix )。 可 以 将 它 的 两 个 轴 分 
别 看 作 和 矩阵 的 行 和 列 。 你 可 以 将 矩阵 想象 成 元 系 组 成 的 长 方形 网 格 ( 见 图 B-1 )。 下 面 是 矩阵 在 


TensorFlow.js 中 的 写法 。 








> const myMatrix = tf.tensor2d([[1, 2, 3], [40, 50, 60]1); 
> myMatrix.shape; 

[2，3] 

> myMatrix.rank; 

2 


第 一 个 轴 中 的 元 素 叫 作 行 值 ， 第 二 个 轴 中 的 元 素 叫 作 列 值 。 在 上 面 的 示例 中 ，[1，2，3] 
是 第 一 行 ，[1，40] 是 第 一 列 。 有 一 点 需要 注意 ,在 data() 或 datasync() 的 返回 值 中 ， 数 据 
会 以 局 平 化 (flatten ) 的 形式 存在 一 个 数组 中 。 这 些 数据 会 采用 行 优先 (row-major ) 排序 。 换 言 
之 ， 第 一 行 中 的 元 素 会 先 出 现在 Float32Array 中 ， 随 后 是 第 二 行 的 元 素 ， 以 此 类 推 。” 


> awalt myMatrix.data();} 
Float32Array (6) [1, 2, 3, 40, 50, 60] 





Q@ 这 点 和 很 多 数值 计算 软件 (例如 MATLAB 和 R ) 采用 的 列 优先 排序 是 不 同 的 。 
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之 前 提 到 过 ， 在 用 data () 和 dataSsync () 方 法 读 取 一 维 张 量 时 ， 可 以 通过 索引 获取 张 量 中 
的 值 。 但 是 对 于 二 维 张 量 ， 这 种 方式 可 能 就 有 点 烦琐 了 ， 因 为 aata() 和 datasync() 返 回 的 
TypedArray 会 遍 平 化 二 维 张 量 中 的 元 素 。 例 如 ， 若 要 从 TypedArray 中 获取 二 维 张 量 中 第 二 行 第 
二 列 的 值 ， 则 需要 使 用 下 面 的 方式 计算 元 素 的 索引 。 


> (await myMatrix.data())[1 * 3 + 1]; 
50 


值得 庆 圣 的 是 ，TensorFlow.js 还 提供 了 男 外 一 组 方法 ， 直 接 以 原生 的 JavaScript 数据 结构 从 
张 量 拉 取 数 据 : array() 和 arraySync()。 不 同 于 aata() 和 aataSync() ,这 些 方法 返回 的 舰 
套 JavaScript 数组 能 够 很 好 地 保留 原 张 量 的 阶 数 和 形状 ， 使 用 方法 如 下 所 示 。 


> JSON.stringify (await myMatrix.array()) 
"[[1,2,3],[40,50,60]]" 


可 以 直接 通过 般 倒 的 数组 肥 引 读 取 第 二 行 第 二 列 的 元 系 。 


> (await myMatrix.array ()){[1]1[1] 
50 


由 于 免除 了 计算 索引 的 麻烦 ， 这 种 方法 对 高 维 张 量 尤其 好 用 。artraySync () 是 array () 方 
法 的 同步 方法 。 和 aatasync () 类 似 ，artravySsync () 也 会 阻塞 UI 线程 ， 因 此 应 该 慎重 地 使 用 。 

上 面 的 tf.tensor2d() 调 用 中 使 用 了 一 个 胎 套 的 JavaScript 数组 作为 参数 。 该 参数 由 几 个 
骨 套 在 男 一 个 数组 中 的 数组 组 成 。tf .tensor2g() 利 用 这 种 舱 套 结构 来 推 岂 二 维 张 量 的 形状 ， 
即 二 维 张 量 分 别 有 和 多 少 行 和 列 。 用 tf .tensor2d() 创 建 这 个 二 维 张 量 的 男 一 种 方法 是 输入 一 个 
局 平 化 〈 非 租 套 ) 的 JavaScript 数组 ， 然 后 在 第 二 个 参数 中 指明 二 维 张 量 的 形状 。 

> const myMatrix = tf.tensor2d([1, 2, 3, 40, 50, 60], [2, 3]1); 

> myMatrix.shape; 

[2 3 


> myMatrix.rank; 
2 


在 这 种 方法 中 ,shape 参数 中 所 有 数值 的 乘积 必须 等 于 己 平 化 数组 中 的 元 素数 量 , 否则 调用 
tf.tensor2dq() 时 会 报 钳 。 对 于 阶 数 大 于 2 的 张 量 ， 也 有 两 种 类 似 的 张 量 创建 方法 : 用 单个 航 
套 的 数组 作为 参数 ,或 用 一 个 扁平 化 数组 和 一 个 形状 数组 作为 参数 。 你 会 在 本 书 的 各 个 示例 中 见 
到 这 两 种 用 法 。 






































B.1.4 三 阶 以 及 更 高 阶 的 张 量 


如 果 将 多 个 二 维 张 量 封装 进 一 个 数组 中 , 就 可 以 得 到 一 个 三 维 张 量 。 可 以 将 其 想象 为 元 素 组 
成 的 立方 体 ( 见 图 B-1 中 的 tensor3d )。 你 可 以 用 和 之 前 类 似 的 方法 在 TensorFlow.js 中 创建 三 阶 
张 量 。 
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> const myRank3Tensor = tf.tensor3d([[[1, 2, 3] 
[4, 5, 6|]] 
[E10 20;, 301; 
[40, 50, 60]11]); 
> myRank3Tensor.shape; 
[2, 2, 3] 
> myRank3Tensor.rank; 
S; 
另 一 种 创建 三 阶 张 量 的 方法 是 提供 一 个 扁平 化 〈 非 般 套 ) 的 数值 数组 ， 以 及 一 个 形状 数组 。 
> const anotherRank3Tensor = tf.tensor3d( 
[ly 2; 3 .4, 5; 6% 7, 8, 9 10,. 11, 121, 
[2; 2» 31)s 


可 以 将 上 面 示例 中 的 tf .tensor3d() 限 数 蔡 换 成 更 通用 的 tf.tensor () 困 数 。 你 可 以 用 
它 生 成 任何 小 于 或 等 于 六 阶 的 张 量 。 下 面 的 示例 展示 了 如 何 创 建 三 阶 和 六 阶 张 量 。 








> anotherRank3Tensor = tf.tensor!l( 
[1 2 3 4, 5 6 7 8 T LO, Ll L221; 
[2, 2, 3]); 

> anotherRank3Tensor.shape; 

[2, 2, 3] 

> anotherRank3Tensor.rank; 

3 


> tinyRank6Tensor = tf.tensor([13], [1, 1, 1, 1, 1, 1]); 
> tinyRank6Tensor.shape; 

[1, 1, 1, 1, 1, 1] 

> tinyRank6Tensor.rank; 

6 








B.1.5 数据 批 次 的 概念 


在 这 度 学 习 的 实践 中 ， 几 乎 所 有 张 量 的 第 一 个 轴 【《〈 索 引 为 0 的 轴 ， 因 为 索引 一 般 从 0 开始 ) 
都 是 批 次 轴 (batch axis )， 有 时 又 叫 作 样 例 轴 ( sample axis ) 或 批 次 维度 ( batch dimension )。 
此 ， 输 入 模型 的 实际 张 量 的 阶 数 会 比 单个 输入 特征 的 张 量 多 一 个 。 本 书 中 介绍 的 所 有 
TensorFlow.js 模型 都 是 如 此 。 第 一 个 维度 的 尺寸 等 于 批 次 中 的 样 例 数 ， 即 批 尺寸 ( batch size )。 
例如 ， 在 第 3 章 的 读 尾 花 分 类 示例 〈 见 代码 清单 3-9 ) 中 ， 每 个 样 例 的 输入 特征 都 由 4 个 数字 组 
成 。 它 被 表示 为 长 度 为 4 的 向 量 ( 即 形状 为 [4] 的 一 维 张 量 )。 因此 ,总 尾 花 分 类 模型 的 输入 是 二 
维 的 ， 并 且 形 状 为 nul1，4] 。 数 组 中 的 第 一 个 nul1 值 表示 批 尺 寸 会 在 模型 运行 时 决定 ( 见 图 
B-2 )。 这 种 表示 批 次 的 惯例 同样 适用 于 模型 的 输出 。 例 如， 况 尾 花 分 类 模型 会 对 每 个 输入 样 例 的 
3 种 可 能 的 蕊 尾 花 类 型 输出 一 个 one-hot 编码 。 该 编码 是 一 个 形状 为 [31 的 一 维 张 量 。 然 而 ， 模 型 
的 实际 输出 形状 是 二 维 的 ， 即 [nul1，3] ， 其 中 第 一 个 null 值 表示 待定 的 批 尺寸 。 
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单个 样 例 的 张 量 和 


形状 : [nul1，3] 


一 一 样 例 1 
A 一 一 样 例 2 
A /A tt 


图 B-2 单个 样 例 的 张 量 形状 ( 左 ) 以 及 样 例 批 次 的 张 量 形状 ( 右 )。 样 例 批 次 的 张 量 比 单个 
样 例 张 量 的 阶 数 高 一 位 。tf .Model 对 和 象 的 predict()、fit() 和 evaluate() 方 
法 接收 的 都 是 批 次 格式 。 样 例 批 次 的 null 值 表示 张 量 的 第 一 个 维度 尺寸 待定 。 在 实 
际 使 用 模型 时 ， 它 可 以 变 为 任意 正 整 数 








B.1.6 ” 张 量 的 实际 应 用 


下 面 用 几 个 具体 的 示例 来 诠释 张 量 的 概念 , 它们 和 本 书 正 文中 介绍 过 的 示例 类 似 。 你 将 接触 
到 的 数据 基本 都 可 以 划 入 以 下 几 个 旋 畴 。 此 处 会 休 循 之 前 提 到 的 表示 批 次 的 惯例 , 将 批 次 中 的 样 
例 数 ( 即 numExamples ) 写 在 第 一 个 轴 。 

口 问 量 数据 : 形状 为 [numExamples，features] 的 二 维 张 量 。 

口 时 间 序 列 或 一 般 的 序列 数据 : 形状 为 [numExamples，timesteps，features] 的 三 维 

张 量 。 
口 图 像 数 据 : 形状 为 [numExamples，height，width，channels] 的 四 维 张 量 。 
口 视频 数据 : 形状 为 [numExamples，frame, height, width，channels] 的 五 维 张 量 。 





1. 向 量 数据 
这 是 最 第 见 的 情况 。 在 这 类 数据 集中 ， 每 个 样 例 都 可 以 编码 为 一 个 癌 量 。 因 此 ， 样 例 批 次 就 
可 以 编码 为 一 个 二 维 张 量 。 该 张 量 的 第 一 个 轴 为 样 例 轴 ， 第 二 个 轴 为 特征 轴 。 
来 看 下 面 这 两 个 示例 。 
口 一 个 包含 3 种 个 人 信息 〈 年 龄 、 邮 编 和 收入 ) 的 精算 数据 集 。 可 以 将 数据 集中 的 每 个 人 
看 作 由 3 个 值 组 成 的 向 量 。 因 此 , 由 100 000 组 个 人 信息 组 成 的 数据 集 就 可 以 表示 成 形状 
为 [100000，31] 的 二 维 张 量 。 
D 一 个 基于 各 种 文本 文档 生成 的 数据 集 ， 其 中 每 个 文档 被 表示 为 该 文档 中 各 个 单词 的 出 现 
次 数 (假设 所 有 的 单词 都 来 自 一 个 包含 20 000 个 最 常见 单词 的 词典 )。 这 样 ， 每 个 文档 都 
可 以 被 编码 为 由 20 000 个 值 组 成 的 癌 量 (词典 中 的 每 个 单词 对 应 一 个 统计 数学 )。 因 此 ， 
500 个 文档 样 例 组 成 的 批 次 就 可 以 表示 为 形状 为 [500，20000] 的 张 量 。 
2. 时 间 序 列 或 一 般 的 序列 数据 
只 要 数据 存在 一 定 的 时 间 规 律 或 顺序 , 就 可 以 将 其 表示 为 拥有 时 间 轴 的 三 维 张 量 。 因 为 每 个 
样 例 都 会 补 表 示 为 一 个 癌 量 序列 ( 即 二 维 张 量 ), 所 以 样 例 批 次 自然 就 是 一 个 三 维 张 量 ( 见 图 B-3 )。 
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图 B-3 时间 序列 数据 的 三 维 张 量 表示 示例 


如 下 面 的 示例 所 示 ， 作 为 惯例 ， 时 间 轴 几乎 总 是 第 二 个 轴 《〈 即 索引 为 1 的 轴 )。 

口 股价 数据 集 。 数 据 集中 的 每 个 样 例 包 含 某 一 时 刻 的 股价 ， 以 及 该 时 刻 过 去 一 分 钟 的 最 高 
股价 和 最 低 股 价 。 因 此 ， 可 以 将 每 分 钟 生 成 的 数据 表示 为 3 个 值 组 成 的 回 量 。 因 为 一 小 
时 有 60 分 钟 ， 所 以 一 小 时 内 生成 的 交易 数据 可 以 表示 成 形状 为 [60，3] 的 二 维 张 量 。 如 
条 数据 集 包含 230 个 小 时 的 无 重合 的 序列 数据 ， 那 么 该 数据 集 的 形状 为 [250，60，3]。 

口 推 文 数据 集 。 数 据 集中 的 每 条 推 文 都 可 以 编码 为 (来 日 128 个 不 重复 字母 组 成 的 字母 表 
的 ) 280 个 字母 组 成 的 序列 。 在 这 个 场景 中 ， 每 个 字母 都 可 以 进一步 被 编码 成 信 寸 为 128 
的 二 进 制品 量 (除了 字母 对 应 的 索引 为 1， 其 他 索引 的 值 丝 为 0)。 因 此 ， 可 以 将 每 条 推 
文 看 作 形 状 为 [280，128] 的 二 阶 张 量 。 如 果 有 100 万 条 推 文 ， 那么 可 以 将 其 表示 成 形状 
为 [1000000，280，128] 的 张 量 。 


3. 图 像 数 据 

图 像 数 据 一 般 有 三 个 维度 : 高 、 宽 和 颜色 深度 。 尽 管 灰 度 图 像 仅 有 一 个 颜色 通道 ,但 作为 惯 
例 ， 一 般 会 将 图 像 数 据 表示 为 三 阶 张 量 。 对 于 灰 度 图 人像， 其 中 会 包含 一 个 1 维 颜 色 通 道 。 因 此 由 
128 个 尺寸 为 256 像素 x 256 像素 的 灰 度 图 像 组 成 的 批 次 可 以 用 形状 为 [128，256，256，11] 的 
张 量 表示 。 而 128 个 彩色 图 像 组 成 的 批 次 则 可 以 用 形状 为 [128，256，256，3] 的 张 量 表示 ( 见 
图 B-4 )。 这 种 表示 方法 叫 作 NHWC 规范 (详情 参见 第 4 章 )。 


eg 
OQ 


图 B-4 ”图像 数据 的 四 维 张 量 示例 
有 些 机 需 学 习 框 架 会 将 通道 维度 放 在 高 度 维度 和 宽度 维度 之 前 ， 即 采用 NCHW 规范 。 本 书 
没有 采用 这 种 规范 。 不 过 如 果 你 在 别处 看 到 形状 像 0[128，3，256，256] 这 样 的 图 像 张 量 表 示 ， 
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也 不 用 感到 慰 讶 。 


4. 视频 数据 

在 实际 应 用 中 , 原始 视频 数据 是 少 有 的 几 类 需要 用 到 五 阶 张 量 的 和 常见 数据 类 型 。 可 以 将 视频 
看 作 一 系列 的 帧 , 每 一 帧 是 一 个 彩色 图 像 。 因 为 每 一 帧 是 一 个 形状 为 [height,， width，colorChannel ] 
的 三 阶 张 量 ， 所 以 一 系列 帧 可 以 被 表示 为 四 维 张 量 [frames，height，width，colorchannel]。 
因此 ， 如 采 有 一 组 视频 ,那么 可 以 将 它们 表示 为 形状 为 [samples,，, frames, height, width, 
colorChannel] 的 五 维 张 量 。 

例如 , 如 果 以 每 秒 4 帆 的 采样 率 , 采样 一 段 长 60 秒 的 、 分 辨 紊 为 144 像 系 x 256 像 系 的 视频 ， 
就 会 得 到 240 帧 。4 个 这 样 的 视频 组 成 的 批 次 可 以 表示 成 形状 为 [4，240，144，256，3] 的 张 
量 。 这 个 张 量 共有 106 168 320 个 数值 ! 如 采 模型 的 stype 是 'float32' ， 那 么 每 个 值 会 以 32 
位 精度 表示 ， 张 量 的 总 大 小 约 为 405MB。 这 数据 量 可 不 小 ! 你 在 现实 生活 中 见 到 的 视频 可 能 没 
有 这 人 么 大 ,因为 它们 的 像素 精度 不 会 达到 32 位 ,而 且 它 们 一 般 会 被 大 幅度 压缩 ( 例如 压缩 成 MPEG 
格式 )。 


B.1.7 从 张 量 缓 冲 区 创建 张 量 


之 前 的 内 容 已 经 展示 了 如 何 利 用 tf.tensor2d() 和 tf.tensor() 捕 数 ， 从 JavaScript 数组 
创建 张 量 。 如 果 这 么 做 ， 那 么 必须 事先 确定 所 有 元 素 的 值 ， 并 且 提 前 在 JavaScript 数组 中 将 它们 
设置 好 。 但 有 些 场景 中 ， 从 头 创建 这 些 JavaScript 数 组 有 些 烦 珊 。 例如， 假设 你 想 创建 一 个 5x5 
的 和 矩阵， 其 中 所 有 不 在 对 角 线 上 的 元 素 都 为 0， 而 在 对 角 线 上 的 元 素 则 为 行 或 列 索 引 加 1 (形成 
一 个 递增 的 序列 )。 


[ 
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在 要 创建 一 个 符合 上 述 要 求 的 能 套 的 JavaScript 数组 ， 可 能 会 用 到 类 似 下 面 这 样 的 代码 。 


COnNsSt I 三 与 ” 





const matrixArray = []:; 
for (let 1 = 0; 1 < 5; ++1) { 
const row = []; 
for (let Jj = 0; Jj < 5; ++]) { 
row.push(]j] = 
} 
matrixArray .push (row);} 


} 


最 后 ， 可 以 将 租 套 的 JavaScript 数组 matrixArray 转换 为 二 维 张 量 。 


> Const matrix = tf.tensor2d (matrixArray); 
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上 面 的 代码 写 起 来 确实 很 烦 玉 , 因 其 有 两 个 般 僚 的 for 循环 。 有 没有 方法 可 以 简化 它们 呢 ? 
答案 是 肯定 的 : 可 以 用 tf.tensorBuffer () 方法 创建 一 个 TensorBuffer 对 象 ( 即 张 量 缓冲 
区 对 和 象 ), 然后 通过 索引 和 set () 方 法 来 改变 其 中 元 条 的 值 ,TensorBuffer 对 象 和 TensorFlow.js 
中 的 张 量 对 象 有 所 不 同 ， 因 为 后 者 的 元 素 值 是 不 可 变 的 ( immutable )。 设 置 完 所 有 需要 设置 的 
TensorBuffer 元 系 值 后 , 就 可 以 便捷 地 通过 它 提 供 的 Tensor () 方 法 将 它 转换 为 真正 的 张 量 对 
象 。 由 此 创建 出 的 张 量 和 之 前 代码 创建 的 张 量 是 等 效 的 。 新 代码 如 下 。 


const buffer = tf.tensorBuffer([5, 5|]); 本 在 创建 TensorBuffer 对 象 时 ， 指 明 




















for (let 1 = 3 站 28 Py ( 张 量 的 形状 。TensorBuffer 对 象 刚 
buffer.set(i + 1, i, i); 


, 创建 时 ， 所 有 的 值 都 是 0 
const matrix = buffer.toTensor(); 第 一 个 参数 是 要 设置 的 值 ， 剩 下 的 
将 TensorBuffer 转换 参数 是 要 设置 的 元 素 索 引 


为 真正 的 张 量 对 象 





如 上 所 示 ， 利 用 tf .tensorBuffer()， 代码 量 从 10 行 减 到 了 5 行 。 


B.1.8 创建 全 0 和 全 1 张 量 


张 量 创建 的 一 个 常见 场景 是 生成 一 个 符合 指定 形状 ,但 元 陛 值 都 为 0 的 张 量 。 这 时 可 以 使 用 
cf.zeros () 图 数 。 如 下 所 示 ， 调 用 该 郴 数 时 ， 要 在 参数 中 指明 想 要 的 张 量 形状 。 


> const x = tft.zeros([2，3，31)，; 











> x.print().; 


‘Tensor 
LEO Vs 0 
[0; 0; 01, 
LO WO 
[[0, 0, 01],， 
Lo 0 01; 
[0 "Ws 1 


由 此 创建 的 张 量 会 使 用 默认 数据 类 型 ( 即 atype 为 float32 )。 夯 要 创建 别 的 数据 类 型 的 全 0 
张 量 ， 在 tf .zeros () 困 数 的 第 二 个 参数 中 指明 数据 类 型 即 可 。 

一 个 与 此 相关 的 函数 是 tf .zerosLike()。 可 以 利用 它 ， 以 现 有 张 量 为 模板 ， 创 建 出 一 个 
形状 相同 、 数 据 类 型 相同 ， 但 元 系 值 全 为 0 的 张 量 : 


> const y = tf.zerosLike (x); 

以 上 代码 和 下 面 的 代码 是 等 效 的 : 

> const y = tf.zeros(x.shape, x.dtype); 

不 过 要 更 为 简短 。 

还 有 一 些 与 此 类 似 的 方法 ， 能 创建 元 素 值 全 为 1 的 张 量 : tf.ones() 和 tf.onesLike()。 
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B.1.9 创建 随机 值 张 量 


创建 随机 值 张 量 有 很 多 应 用 场景 ， 比 如 权重 初始 化 。tf.randqomNormal() 和 tf.random- 
Uniform() 是 两 个 最 常用 的 创建 随机 值 张 量 的 方法 。 这 两 个 盟 数 的 语法 类 似 , 但 生成 的 元 素 值 分 
布 不 同 。 顾 名 思 义 ，tf .randomNormal() 返 回 的 张 量 的 元 系 值 会 遵循 正 态 (高 斯 ) 分 布 。 “如 
果 调 用 该 函数 时 只 输入 形状 参数 ,函数 返回 的 张 量 的 元 素 值 会 体 循 标 准 正 态 分 布 , 即 分 布 的 均值 
( mean ) 为 0， 标准 差 ( standard deviation, SD) 为 1: 














> const x = tf.randomNormal ([2, 3]); 
> Xx.print () : 
Tensor 
[[-0.2772508, 0.63506 ，0.30806651],， 


[0.7655841 ，2.5264773，1.142776 ]] 
如 采 想 让 生成 的 元 素 值 遵循 非 标 准 正 态 分 布 , 可 以 分 别 在 第 二 个 参数 和 第 三 个 参数 中 指明 均值 
和 标准 差 。 下面 的 示例 展示 了 如 何 创建 一 个 元 素 信 章 循 均 信 为 -20, 标准 差 为 0.6 的 正 态 分 布 的 张 量 。 


> const x = tf.randomNormal([2, 3], -20, 0.6); 
> XxX.print(); 











Tensor 
[[-19.0392246, -21.2259483， -21.2892818|]， 
[-20.6935596, -20.3722878,，, -20.1997948|]| 


tf .randomUniform() 创 建 的 随机 值 张 量 的 元 素 值 会 遵循 均匀 分 布 。 默认 情况 下 ，, 均匀 分 布 
的 取 值 范围 也 是 一 个 单元 ， 即 在 0~ 1 范围 内 。 


> const x = tf.randomUniform([3, 3]); 
> XxX.print(); 





Tensor 
[[0.8303654, 0.3996494, 0.3808384]， 
[0.0751046, 0.4425731, 0.2357403],， 
[0.4682371, 0.0980235, 0.7004037]] 


如 果 想 让 生成 的 元 素 值 遵循 非 标准 均匀 分 布 ， 可 以 分 别 在 tf .randomUniform() 方 法 的 第 
二 个 参数 和 第 三 个 参数 中 指明 分 布 取 值 的 下 界 和 上 界 : 

> const x = tf.randomUniform([3, 3], -10, 10); 

上 面 的 代码 创建 了 一 个 元 系 值 随机 均匀 分 布 在 [-10，10) 区 间 的 张 量 。 


> x.print(); 











Tensor 
[[-7.4774652, -4.3274679, 5.5345411 ]， 
[-6.767087 ，-3.8834026，-3.2619202]， 
[-8.0232048, 7.0986223 ， -1.3350322]|] 


tf.randomUniform() 可 以 用 于 创建 类 型 为 int32 的 随机 值 张 量 。 这 对 于 创建 随机 标签 非常 
有 用 。 例如 ,下 面 的 代码 会 创建 一 个 长 度 为 10 的 向 量 , 向量 的 元 素 值 随机 采样 自 0 ~ 100 的 整数 





中 对 于 熟悉 统计 学 的 读者 还 有 必要 强调 ， 张 量 的 元 素 值 也 是 相互 独立 的 。 





一 “Ar 
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区 则 ( 即 [r0，100) )。 


> const x = tf.randomUniform([10], 0, 100, 'int32').， 
> x.print().; 
‘Tensor 

[92, 16, 65, 60, 62, 16, 77, 24, 2, 66] 


注意 ,参数 'int32' 是 这 个 示例 的 关键 .如果 没有 它 ,元 系 值 的 格式 会 是 float32 而 不 是 int32。 


B.2 基础 张 量 运 算 


对 张 量 进行 运算 才能 真正 发 挥 张 量 的 作用 。TensorFlow.js 文 持 大 量 的 张 量 运算 ， 可 以 在 
TensorFlow 官方 文档 中 查看 相关 介绍 。 在 此 逐个 罗列 它们 显得 烦琐 上 且 多 余 。 因 此 ， 作 为 示例 ， 此 
处 只 会 重点 讲解 一 些 其 中 最 和 常用 的 运算 ， 可 分 为 两 个 类 别 : 一 元 运算 (unary operation ) 和 二 元 
运算 ( binary operation )。 一 元 运算 的 输入 为 一 个 张 量 , 返回 的 是 一 个 新 张 量 。 二 元 运算 的 输入 是 
两 个 张 量 ， 返 回 的 也 是 一 个 新 张 量 。 




















B.2.1 一 元 运算 


接 下 来 以 将 张 量 的 元 素 值 变 成 其 相反 数 ( 即 正 负 号 题 倒 ) 为 例 。 下 面 的 代码 会 返回 一 个 形状 
和 数据 类 型 与 之 前 相同 的 新 张 量 。 此 处 的 关键 是 tf .neg () 方 法 。 











> const x tf.tensorld([-1, 3, 7|]); 


> const y = tf.neg (x); 
> y.print(); 
Tensor 

[=3:. 十 


1. 函数 式 API 与 链 式 API 的 对 比 

在 之 前 的 示例 中 ， 我 们 使 用 的 是 第 规 的 函数 调用 方法 ， 即 调用 tf .neg () 方 法 ， 并 将 张 量 x 
作为 其 参数 。TensorFlowjs 还 提供 了 一 种 更 简洁 的 写法 进行 数学 计算 ， 其 结果 是 等 效 的 。 这 种 写 
法 会 直接 调用 张 量 对 象 本 身 的 neg () 方 法 ， 而 不 是 tf .* 命 名 空间 下 的 函数 : 


> const y = x.neg(),; 

从 这 个 简单 的 示例 可 能 很 难看 出 新 式 API 是否 中 的 比 普通 的 晒 数 调用 更 简洁 。 然 而 , 在 需要 
连续 使 用 多 个 运算 的 场景 中 ， 第 二 种 API 显然 会 好 得 多 。 例 如 ， 假 设 有 一 个 算法 ， 需 要 先 求 x 
的 相反 数 ， 计 算 其 结 来 的 导数 (1 除 以 各 元 素 值 ) 然后 将 结果 传人 relu 激活 函数 ,输出 该 函数 
的 返回 值 。 下 面 是 用 第 一 种 API 实现 该 算法 的 代码 。 


> const y = tf.relu(tf.reciprocal (tf.neg (x))); 
下 面 是 第 二 种 API 实现 该 算法 的 代码 。 


> const y = x.neg() .reciprocal() .relu(); 
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第 二 种 实现 和 第 一 种 实现 相 比 ， 有 以 下 三 大 优势 。 
口 要 打 的 字 更 少 ， 因 此 犯错 的 概率 也 更 小 。 
口 不 必 费 时 费力 地 保证 咀 数 左右 括号 的 数量 匹配 ( 尽管 绝 大 部 分 现代 编辑 右 可 以 目 动 检测 
左右 括号 数量 是 否 匹配 )。 
口 更 重要 的 是 ， 运 算 方 法 在 代码 中 的 顺序 和 背后 的 数学 运算 顺序 是 匹配 的 ( 注音 ， 在 第 一 
种 实现 中 ， 两 者 的 顺序 是 相反 的 )。 同 时 ， 这 也 意味 者 第 二 种 实现 的 代码 更 可 读 。 
第 一 种 API 叫 作 函数 式 ( functional ) API， 因 为 它 的 用 法 是 调用 tf.* 空 间 下 的 函数 。 第 二 
种 API 叫 作 链 式 〈chaining ) API， 因 为 运算 困 数 的 调用 方式 就 像 锁链 一 样 环 坏 相 扣 (〈 束 像 上 面 的 
示例 展示 的 那样 )。TensorFlow.js 中 的 绝 大 部 分 运算 同时 支持 这 两 种 API 写法 (调用 tf.* 命 名 空 
则 下 的 函数 的 写法 ， 以 及 调用 张 量 对 象 上 的 方法 的 链 式 写法 )。 你 可 以 根据 目 己 的 需求 ， 在 两 种 
写法 中 目 由 选择 。 在 本 书 的 不 同 示 例 中 , 我 们 会 选择 不 同 的 API 写 法。 在 需要 按 顺 序 进 行 一 系列 
运算 的 场景 中 会 优先 使 用 链 式 API。 


2. 元 素 间 运算 与 归 约 运算 的 对 比 

之 前 提 到 的 一 元 运算 示例 (tf.neg()、tf.reciprocal() 和 tf.relu() ) 有 一 个 共同 的 
竹 点 ， 即 运算 都 独立 发 生 在 输入 张 量 中 的 各 个 元 系 上 。 因 此 , 这些 运 算 返 回 的 张 量 都 会 保留 输入 
张 量 的 形状 。 然 而 ，TensorFlow.js 中 的 另 一 些 一 元 运算 返回 的 张 量 形状 可 能 比 原 张 量 要 小 。 对 于 
张 量 形状 而 言 ,“ 小 ”意味 看 什么 呢 ? 在 有 些 场景 中 ， 它 意味 独 张 量 的 阶 数 会 变 小 。 比 如 ， 有 的 
一 雹 运算 可 能 会 返回 一 个 标量 张 量 ( 即 零 阶 张 量 )， 即 使 输入 张 量 是 三 维 张 量 ( 即 三 阶 张 量 ), 在 
其 他 场景 中 , 这 意味 着 某 些 维度 的 尺寸 会 小 于 原 张 量 。 例如 , 一 元 张 量 可 能 会 返回 形状 为 [3，1] 
的 张 量 ， 即 使 输入 张 量 的 形状 是 [3，201。 但 无 论 形 状 会 以 何 种 形式 缩减 ， 这 些 运 算 都 可 以 统称 
为 归 约 运算 (reduction operation )。 

tf.mean () 是 最 常用 的 归 约 运算 之 一 。 在 链 式 API 中 ， 可 以 通过 mean ( ) 方 法 使 用 它 。 如 有 果 
调用 时 没有 提供 任何 参数 , 它 会 计算 出 输入 张 量 中 所 有 元 素 的 算术 平均 值 ,并 返回 一 个 结果 标量 ， 
无 论 输 入 张 量 的 形状 是 什么 。 它 的 链 式 API 写法 如 下 。 


















































> const x = tf.tensor2d([[0, 10], [20, 30] 1]1); 
> x.mean() .print().; 
Tensor 

15 








有 时 ,我 们 想 单独 计算 出 二 维 张 量 ( 即 抢 阵 ) 各 行 的 平均 值 ， 而 不 是 一 次 计算 出 整个 张 量 的 
平均 值 。 此 时 ， 只 需要 在 调用 mean () 方 法 时 ， 提 供 一 个 额外 的 参数 即 可 。 


> x.mean(-1) .print (); 





Tensor 
[5, 25] 


参数 中 的 -1 是 指 mean () 方 法 应 该 沿 着 张 量 的 最 后 一 个 维度 计算 算术 平均 值 。" 这 里 的 最 后 











J 这 种 索引 写法 遵循 的 是 Python 中 的 索引 使 用 方法 。 
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一 个 维度 叫 作 归 约 维度 (reduction dimension )， 因 为 最 后 输出 的 张 量 会 将 这 一 维度 “ 归 约 ”"， 成 
为 一 个 一 阶 张 量 。 另 一 种 等 效 的 指明 归 约 维度 的 写法 是 直接 使 用 该 维度 的 索引 。 


> x.mean(1) .print (); 


注意 ，mean () 还 文 持 配置 多 个 归 约 维度 。 比 如 ， 假设 你 有 一 个 形状 为 [10,，6，31 的 三 维 张 
量 ， 并 有 旦 想 计 算 最 后 两 个 维度 的 平均 值 ， 得 到 一 个 形状 为 [101 的 一 维 张 量 。 你 既 可 以 使 用 
x.mean([-2，-1]) 这 种 写法 ， 也 可 以 使 用 x.mean([1，2]) 这 种 写法 。 你 将 有 机 会 在 B.5 市 
的 练习 中 试验 这 两 种 写法 。 

此 外 ， 还 有 一 些 和 常用 的 一 元 归 约 运算 ， 列举 如 下 。 

口 tf.sum()， 用 法 几乎 和 tf.mean() 完 全 一 样 ， 只 不 过 计算 的 是 元 素 值 之 和 ， 而 不 是 平 

均值 。 
口 tf .norm(), 计算 的 是 元 又 的 范 数 (norm )。 范 数 有 很 多 种 。 例如 ，1-norm 计算 的 是 所 有 
元 系 绝对 值 的 总 和 。2-norm 计算 的 是 元 系 值 平方 总 和 的 平方 根 。 换 言 之 ， 它 计算 的 是 欧 
氏 空间 中 癌 量 的 长 度 。tf .norm() 可 以 用 于 计算 一 组 数 的 方差 或 标准 差 。 

Dtf.min() 和 tf.max()， 计 算 的 分 别 是 元 素 的 最 小 信和 最 大 但。 

Dtf.argMax()， 返 回 的 是 归 约 轴 最 大 元 素 的 索引 。 该 运算 经 常用 于 将 分 类 模型 输出 的 概 
率 值 转换 为 概率 值 最 高 的 类 别 的 索引 ( 比如 3.3.2 节 中 介绍 的 芒 尾 花 分 类 问题 就 是 如 此 )。 
tf.argMin() 的 功能 和 tf.argMax() 类 似 ， 只 不 过 寻找 的 是 最 小 信 。 

上 文 提 到 过 , 元 系 间 的 运算 会 保留 输入 张 量 的 形状 , 但 反之 并 非 如 此 。 有 些 运 算 虽 不 会 改变 
张 量 的 形状 ， 但 并 不 属于 元 素 间 运算 。 例 如 ，tf.transpose() 会 对 整个 矩阵 进行 转 置 ， 即 将 位 
于 输入 张 量 [i，j] 位 置 的 元 床 映 射 到 输出 张 量 的 [j ，i] 位 置 。 如 有 果 和 矩阵 的 形状 是 下 方形， 那么 
tf.transpose() 运 算 前 后 的 张 量 形状 是 一 样 的 , 但 这 并 不 是 一 个 元 素 间 运算 。 这 是 因为 输出 张 
量 [i，j] 位 置 的 值 不 再 只 和 输入 张 量 [i，j] 位 置 的 值 有 关 ， 还 和 其 他 位 置 的 值 有 关 。 



























































B.2.2 ”二 元 运算 


和 一 元 运算 不 同 ， 二 元 运算 有 两 个 参数 。tf .aqdd() 可 能 是 最 常用 也 最 简单 的 二 元 运算 ， 
为 它 的 作用 只 是 将 两 个 张 量 相 加 : 











> const x = tf.tensor2d([[0, 2], [4, 6]1); 
> const y = tf.tensor2d([[10, 20], [30, 46]|]); 
> tf.add(x, y) .print ();} 
Tensor 
[[10, 22], 
[34, 52]] 





还 有 一 些 类 似 的 二 元 运算 ， 下 面 是 一 些 例子 。 
口 tf.sub() 可 以 计算 两 个 张 量 的 差 。 

口 tf.mul() 可 以 计算 两 个 张 量 的 积 。 

口 tf .matMul () 可 以 计算 两 个 矩阵 的 积 。 
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Dtf.logicalaAndq()、tf.logicalor() 和 tf.1logicaxor() 适 用 于 布尔 类 型 的 张 量 。 它 
们 分 别 可 以 进行 与 (AND )、 或 (OR ) 和 异 或 (XOR ) 运算 。 
有 些 二 元 运算 还 文 持 广播 (broadcasting ) 机 制 。 广播 机 制 是 指 在 执行 两 个 形状 不 同 的 张 量 间 
的 运算 时 ,根据 特定 规则 ,将 形状 较 小 的 张 量 的 一 个 元 素 应 用 到 为 一 个 张 量 的 多 个 元 素 上 的 机 制 。 
详情 参见 第 2 章 的 信息 栏 2-4。 


B.2.3 ” 张 量 的 拼接 与 拆 分 


一 元 运算 和 二 元 运算 都 属于 张 量 进 - 张 量 出 ( tensor-in-tensor-out, TITO ) 运算 。 它 们 的 输入 
是 一 个 或 多 个 张 量 ， 输 出 也 是 一 个 张 量 。TensorFlow.js 中 的 有 些 常 用 运算 并 不 是 TITO ， 因 为 它 
们 的 输入 是 张 量 和 其 他 非 张 量 参数 。tf.concat () 可 能 是 这 类 运算 中 最 常用 的 一 个 ， 作 用 是 将 
多 个 形状 匹配 的 张 量 拼接 ( concatenate ) 成 单个 张 量 。 只 有 当 张 量 的 形状 满足 某 种 约束 条 件 时 ， 
拼接 才 可 行 。 比 如 ， 沿 痢 第 一 个 轴 拼 接 形 状 为 [5，31] 的 张 量 和 形状 为 [4，31 的 张 量 是 可 行 的 ， 
并 且 可 以 得 到 形状 为 [9，31 的 输出 张 量 。 但 是 ， 如 采 它 们 的 形状 是 [5，3]1 和 [4，2] ， 那 么 拼 
接 就 是 不 可 行 的 ! 因此 ， 只 要 形状 是 匹配 的 ， 就 可 以 用 tf .concat () 图 数 平 接 张 量 。 例 如 ， 下 
面 的 代码 会 沿 着 第 一 个 轴 将 全 0 的 形状 为 [2，21] 的 张 量 和 全 1 的 形状 为 [2，21 的 张 量 拼接 成 一 
个 形状 为 [4，2] 的 张 量 。 该 张 量 的 上 半 部 分 全 部 为 0， 下 半 部 分 全 部 为 1。 















































> const x = tf.zeros([2, 21); 
> const y = tf.ones([2, 21); 
> tf.concat ([x, yl]) .print(); 
Tensor 

[[0, 01, 

[0 01; 

[1, 11], 

LE | 


由 于 两 个 输入 张 量 的 形状 是 完全 相同 的 , 还 可 以 用 男 一 种 方式 拼接 它们 ， 即 沿 着 第 二 个 轴 拼 
接 。 具体 使 用 哪个 轴 可 以 通过 tf.concat () 方 法 的 第 二 个 参数 配置 。 由 此 会 得 到 一 个 形状 为 [2， 
4] 的 张 量 。 该 张 量 中 的 左 半 部 分 全 为 0， 右 半 部 分 全 为 1。 





> tf.concat ([x, y], 1) .print(); 
Tensor 

[I[0, 0, 1, 1],， 

LO Qs ys | 


除了 将 多 个 张 量 拼接 成 一 个 ， 有 时 我 们 还 想 做 拼接 的 “ 逆 运 算 ”， 即 提取 张 量 的 一 部 分 。 例 
如 ， 假 设 你 创建 了 一 个 形状 为 [3，2] 的 二 维 张 量 (和 矩阵 ): 


> const x = tf.randomNormal ([3, 21]); 

> XxX.print(); 

Tensor 
[[1.2366893 ，0.6011682 1],， 
[-1.0172369, -0.50256021],， 
[-0.6265425, -0.00098681]] 
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并 且 想 提取 出 矩阵 的 第 二 行 。 为 此 ， 你 可 以 使 用 tf.slice() 的 链 式 写法 。 


> xX.Slice([1, 0], [1i, 2|1) .print().; 
Tensor 
[[-1.0172369, -0.5025602],，,] 


slice() 的 第 一 个 参数 表示 想 要 提取 的 张 量 始 于 第 一 个 维度 的 索引 1 和 第 二 个 维度 的 索引 0 
人 位置。 换言之 ， 它 应 该 始 于 第 二 行 的 第 一 列 〈 因 为 此 处 的 二 维 张 量 是 一 个 矩阵 )。 第 二 个 参数 表 
示 想 要 的 输出 形状 ， 即 [1L，21 。 在 矩阵 的 语 境 下 ， 它 代表 1 行 2 列 。 

从 上 面 的 输出 可 以 看 出 ， 我 们 成 功 地 提取 了 3 x 2 和 矩阵 的 第 二 行 。 输 出 张 量 形状 的 阶 数 和 输 
入 求 量 一 样 ， 部 为 2， 但 第 一 个 维度 的 矿 才 变 成 了 1。 在 这 个 示例 中 ， 我 们 提取 的 是 整个 第 二 维 
度 ( 即 所 有 的 列 )， 以 及 第 一 维度 的 子 集 ( 部 分 的 行 ) 对 于 这 个 特定 的 场景 ， 可 以 使 用 如 下 的 更 
简单 的 写法 。 


> x.slice(1, 1) .print (); 








Tensor 
[[-1.0172369, -0.50256021],，|] 


在 这 种 更 简单 的 写法 中 , 只 需要 指明 起 始 索引 和 沿 第 一 维度 所 需 的 数据 太 寸 。 如 果 将 第 二 个 
参数 的 1 换 成 2， 那 么 返回 的 就 是 矩阵 的 第 二 行 和 第 三 行 。 


> x.slice(1, 2) .print() ; 








Tensor 
[[-1.0172369, -0.50256021,， 
[-0.6265425, -0.00098681]] 











你 可 能 已 经 猜 到 , 这 种 简化 版 的 写法 和 批 次 的 使 用 惯例 有 关 。 这 样 可 以 更 轻松 地 从 批 次 化 的 
张 量 中 提取 出 单个 样 例 的 数据 。 
但 如 果 想 要 的 是 矩阵 的 列 而 不 是 行 , 那 该 怎么 办 呢 ?” 在 这 种 情况 下 ,就 不 得 不 采用 更 复 淋 的 
写法 了 。 例 如， 如 采 想 提取 和 矩阵 的 第 二 列 ， 可 以 使 用 如 下 的 写法 。 
> x.slice([0, 1], [-1, 1]) .print(); 
Tensor 
[[0.6011682 |]， 


LI=0=5025602|， 
[-0.0009868]] 


此 处 的 第 一 个 参数 ( [0，1] ) 代表 的 是 竺 提取 数据 的 起 始 索引 ， 即 第 一 维度 的 第 一 个 索引 和 
第 二 维度 的 第 二 个 索引 。 人 简 而 言 之 , 待 提取 的 数据 切片 始 于 第 一 行 和 第 二 列 。 第 二 个 参数 ( [-1,， 11] ) 
表示 切片 的 尺寸 。 该 数组 中 的 第 一 个 数 ( -1 ) 表示 我 们 想 要 第 一 维度 中 的 所 有 索引 ( 即 所 有 的 行 )， 
第 二 个 数 ( 1 ) 表示 我 们 只 想 要 第 二 维度 的 一 个 索引 〈 即 一 列 元 素 )。 由 此 得 到 的 结果 就 是 矩阵 的 
第 二 列 。 

从 slice() 的 语法 可 以 看 出 ，slice() 不 止 可 以 用 于 获取 行 或 列 。 事 实 上 ， 它 非常 灵活 。 
只 要 起 始 索引 和 尺寸 配置 正确 ， 就 可 以 用 它 获 取 输 入 的 二 维 张 量 的 任意 “ 子 和 矩阵 ”( 和 抢 阵 中 的 任 
何 连续 区 域 )。 更 抽象 地 说 ， 对 于 任何 阶 数 大 于 零 的 张 量 ，slice() 可 以 从 输入 张 量 获取 任何 阶 
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数 相同 且 连 续 的 子 张 量 。 你 也 可 以 在 B.5 节 找 到 相关 的 练习 。 

除了 tt.slice() 和 tf.concat()， 还 有 男 外 两 个 第 用 的 拆 分 和 拼接 张 量 的 方法 : 
tf.unstack() 和 tf.stack()。tf.unstack() 会 沿 者 第 一 维度 将 张 量 切 分 成 多 个 子 张 量 。 其 
中 每 个 子 张 量 的 第 一 维度 的 尺寸 为 1。tf.unstack() 的 具体 用 法 (此 处 采用 的 是 链 式 API 写法 ) 
如 下 所 示 。 


> const x = tf.tensor2d([[1, 2], [3, 4], [5, 6]1]); 
> x.print(); 
Tensor 
[[1, 2], 
[3, 4],， 
[5, 6]] 
> Const pieces = x.unstack().; 
> console.log (pieces.1length).; 
3 
> pieces[0] .print(); 
Tensor 
Ls 这 
> pieces[1] .print(); 
Tensor 
[3,， 4] 
> pieces[2] .print(); 
Tensor 
[5, 6] 


你 可 能 已 经 发 现 ，unstack() 返 回 的 子 张 量 的 阶 数 比 输入 张 量 要 少 一 阶 。 
tf.stack() 是 tt.unstack() 的 逆 运 算 。 顾 名 思 义 , 它 会 将 形状 相同 的 张 量 “ 堆 著 ”( stack ) 
在 一 起 ， 形 成 一 个 新 张 量 。 接 着 上 面 的 示例 ， 可 以 用 它 将 子 张 量 重新 拼接 成 原 张 量 。 


> tf.stack (pieces) .print(); 























Tensor 
Lt Bs 
[3» |]; 
[Ss 发 条 





tf .unstack() 适 合用 于 从 批 次 张 量 中 提取 出 单个 样 例 的 张 量 ， 而 tf£.stack () 则 适用 于 将 
单个 样 例 的 张 量 拼接 成 一 个 批 次 张 量 。 


B.3 TensorFlow.js 中 的 内 存 管理 : tf.dqispose() 和 tf.tidy() 


在 TensorFlow.js 中 , 如 采 你 想 直 接 处 理 张 量 对 象 ,那么 同时 还 需要 负责 对 它们 进行 内 存 管理 。 
具体 而 言 ， 在 创建 并 使 用 完 张 量 后 ， 必 须 记得 对 它们 进行 垃圾 回收 ， 否 则 它们 会 持续 占用 起 初 为 
它们 分 配 的 内 存 。 如 果 未 回收 的 张 量 过 多 或 总 体积 过 大 ， 它 们 最 终 会 导致 浏览 需 标 签 页 耗 尽 
WebGL 内 存 ， 或 使 Node.js 进程 耗 尽 系统 或 GPU 显存 (取决 于 使 用 的 是 CPU 版 tts-node， 还 是 
GPU 版 切 S-node )。TensorFlow.js 不 会 自动 回收 用 户 创建 的 张 量 。 ”这 是 因为 JavaScript 不 支持 对 











中 尽管 如 此 , 但 TensorFlow.js 函数 和 对 和 象 方 法 内 部 创建 的 张 量 会 由 TensorFlow.js 库 自 动 管理 , 因此 不 必 将 这 些 函 数 或 
方法 包 囊 在 tf.tiqy() 中 。 这 包括 tt.confusionMatrix()\ tft.Model.predict() 和 tt.Model.fit() 等 困 数 。 
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象 释放 (object finalization )。TensorFlow.js 提供 了 两 个 用 于 内 存 管 理 的 吨 数 : 


f(s 
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tf.dispose() 和 和 


例如 ， 思 考 下 面 这 个 示例 。 它 会 利用 for 循环 让 TensorFlowjs 模型 不 断 输 出 推 其 结 采 。 


Const model 


awalit tf.loadLayersModel ( 
'https://storage.googleapis.com/tfjs-models/tfjs/iris_vi/model.jJjson'); 





— 





const x = tf.randomUniform([1, 4|]); 
for (let i = 0; 1 < 3; ++i) { 创建 一 个 示例 远程 加 载 一 个 
const y = model.predict (x); 用 的 张 量 预 训练 模型 
RE 
console.log( # of tensors: S$S{tf.memory() .numTensors}  ); 
} 7 
内 存 的 张 量 数 
模型 输出 的 结果 如 下 。 
‘Tensor 
[[0.4286409, 0.4692867, 0.1020722],] 
# of tensors: 14 
Tensor 
[[0.4286409, 0.4692867, 0.1020722],] 
# of tensors: 15 
‘Tensor 
[[0.4286409, 0.4692867, 0.1020722],] 
# of tensors: 16 


从 上 面 列 出 的 console. Lag 输出 可 以 看 出 , 每 次 调用 model .Predlct ( ) 都 会 生成 一 个 新 


张 量 。 在 每 个 循环 结束 时 ， 它 们 并 不 会 被 回收 。 只 要 for 循环 的 执行 次 数 够 多 ， 








它 最 终 会 导致 








程序 出 现 内 存 耗 尽 异 第 。 这 是 由 于 张 量 y 没有 被 正确 地 垃 航 回收 ,导致 了 张 量 的 内 存 泄漏 。 有 两 


种 方法 解决 这 类 内 存 汇源 问题 。 








第 一 种 方法 是 ， 在 输出 张 量 使 用 完 





(let 1 
Const y 
bruntb(>S 


for 0; 1 < 3; ++1i) { 


model .predict (x); 
tf.disposel(y); 


Console.1og( # of tensors: 


} 





毕 后 ， 对 其 调用 tf .dispose() 方 法 。 


使 用 完毕 后 ， 
回收 输出 张 量 


Ss{tf.memory() .numTensors} );， 


第 二 种 方法 是 ， 将 for 循环 的 主题 包 吾 在 tf .tidy () 中 。 


for (let i = 0; 1 < 3; ++1i) { 
Et E10 > 1 
Const y = model.predict (x); 
(人 


Console.1og( # of tensors: 
}); 
} 





tf.tidy() 会 自动 回收 传 入 的 匿名 函数 中 
创建 的 所 有 张 量 〈 函 数 返 回 的 张 量 除外 ) 





S$S{tf.memory() .numTensors} ); 


无 论 使 用 哪 种 方法 ， 你 都 会 发 现在 for 循环 的 运行 过 程 中 ,分 配 内 存 的 张 量 数 保 持 不 变 ， 
也 就 是 说 不 再 有 内 存 泄漏 现象 。 那 么 应 该 使 用 哪 种 方法 呢 ? 一般 而 言 , 应 该 优先 使 用 tf .tigy () 
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( 即 第 二 种 方法 ) 因为 这 样 免 去 了 跟踪 要 回收 哪些 张 量 的 烦恼 。tf.tiqy() 非 党 智 能 ,， 它 会 日 动 
回收 传人 的 匿名 函数 中 创建 的 所 有 张 量 ( 该 函数 返回 的 张 量 除外 ,详情 请 见 下 文 ) 即使 张 量 没 
有 和 任何 JavaScript 对 旬 绑 定 ，tf.tigy () 依 然 可 以 正 党 工作。 例如， 假设 我 们 对 上 文 的 推 其 代 
码 做 出 如 下 修改 ， 通 过 argMax () 方法 获取 概率 值 最 遍 的 类 别 的 索引 。 














const model = await tf.loadLayersModel( 
'https://storage.googleapis.com/tfjs-models/tfjs/iris_vi/model.jJjson'); 

const x = tf.randomUniform([1, 4]); 
for (let i = 0; i < 3; ++1i) { 

Const winningIndex = 

model .predict (x) .argMax() .dataSync()[0]; 
console.log( winning index: S$S{winningIndex} ); 
console.log( # of tensors: S$S{tf.memory() .numTensors}  ); 


) 
运行 上 面 的 代码 时 ， 你 会 发 现 每 次 循环 会 泄漏 两 个 张 量 ， 而 不 是 之 前 的 一 个 。 


winning index: 





# of tensors: 1 


# of tensors: 1 


0 
5 
winning index: 0 
7 
winning index: 0 
9 








# of tensors: 1 











为 何 现在 会 泄 独 两 个 张 量 呢 ? 显而易见 ， 是 下 面 这 行 代码 导致 的 。 


Const winningIndex = 
model .predict (x) .argMax() .dataSync()[0]; 


现在 每 次 循环 ， 代 码 都 会 生成 两 个 新 张 量 。 一 个 是 model .predict() 方 法 的 输出 ， 男 一 个 


是 argMax () 的 返回 值 。 这 两 个 张 量 都 没有 和 任何 JavaScript 对 象 绑 定 。 张 量 创建 完成 后 ， 它 们 
就 直接 被 使 用 了 。 从 某 种 角度 来 说 ， 它 们 被 “丢失 ”了 ， 因 为 无 法 通过 任何 JavaScript 对 象 引 用 
它们 。 因 此 tf .dispose() 也 无 法 回收 这 两 个 张 量 。 然 而 ，tf.tidy () 在 这 种 场景 下 ， 仍 然 能 
人 够 成 功 避 人 免 内 存 泄 漏 ， 因 为 它 会 记录 内 部 创建 的 所 有 张 量 ， 无 论 它 们 是 否 和 任何 JavaScript 对 象 
绑 定 。 








Const model = await tf.loadLayersModel ( 
'https://storage.googleapis.com/tfjs-models/tfjs/iris_vi/model.jJjson'); 
const x = tf.randomUniform([1, 4]); 





for (lJet 1 = 0; 1 < 3; ++1i) { 
thetiody(() SS 1 
const winninglIndex = model.predict (x) .argMax() .dataSync()[0]; 
console.log( winning index: S$S{winningIndex} ); 
Console.log( # of tensors: S$S{tf.memory() .numTensors} ); 了 一 一 一 一 一 
py tf.tidy() 会 自动 垃圾 回收 传 入 的 匿名 
函数 中 创建 的 所 有 张 量 ， 即 使 张 量 没 
和 任何 JavaScript 对 象 绑 定 








在 上 面 的 示例 中 ,tf .tidy() 内 的 函数 不 会 返回 任何 张 量 。 如果 函数 会 返回 瑟 量 , 则 不 应 该 








将 它们 垃圾 回收 ,因为 之 后 会 用 到 它们 。 这 种 场景 在 利用 TensorFlow:js 提供 的 基础 张 量 运算 编写 
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日 定义 张 量 运 算 时 非 沼 弟 见 。 例如， 下面 展示 了 一 个 能 够 标准 化 输入 张 量 的 函数 (该 函数 会 返回 
一 个 标准 化 后 的 新 张 量 ， 其 平均 值 为 零 ， 标 准 差 为 1 )。 


function normalize(x) { 
Const mean = x.mean();} 
const sd = x.norm(2); 
return x.subl(lmean) .div (sd);} 


} 


上 面 的 实现 有 什么 问题 吗 ? 就 内 存 管理 而 言 ， 它 会 泄漏 三 个 张 量 : 平均 值 (mean )、 标 准 差 
( SD )， 以 及 sub () 调用 的 返回 值 (其 中 第 三 个 比较 难 发 现 )。 为 了 避免 内 存 泄漏 ， 我 们 需要 将 该 
呆 数 包 正 在 tf .tidy() 中 。" 


function normalize(x) { 
return tf.tidy(() = 

Const mean = X.me 

Const sd = x.norm 


~ 9 


return x.sub (mean). 
下 大 
} 


此 处 的 tf.tidy () 有 三 个 作用 。 
口 和 目 动 垃圾 回收 匿名 函数 中 创建 但 没 返回 的 张 量 ， 包 括 上 文 提 到 的 三 个 泄漏 的 张 量 ， 如 之 
前 的 示例 所 示 。 

口 检测 出 匿名 上 男 数 会 返回 aiv () 调 用 的 输出 ， 因 此 会 自动 将 该 输出 作为 日 己 的 返回 值 。 

口 它 还 会 自动 跳 过 垃圾 回收 该 张 量 ， 以 便 在 tf .tidy () 调 用 的 外 部 使 用 它 。 

由 此 可 见 , tf.tidy () 是 一 个 相当 智能 上 昌 强 大 的 内 存 管理 商 数 。TensorFlow.js 的 内 部 也 在 广 
泛 使 用 它 。 你 会 在 本 书 中 多 次 遇 到 它 。 然 而 ， 它 有 一 些 值得 一 提 的 限制 : 传 入 tf .tidy () 的 匿 
名 明 数 不 能 是 异步 的 。 如 果 你 的 异步 代码 也 需要 内 存 管 理 ， 那么 应 该 使 用 tf.dispose() 方 法 
并 手动 跟 踩 需要 垃圾 回收 的 张 量 。 在 这 类 使 用 场景 中 , 可 以 用 tf .memory () .numTensor 方法 
来 检查 有 多 少 潜在 导致 内 存 泄 漏 的 张 量 。 一 个 不 错 的 实践 是 通过 编写 单元 测试 来 确保 没有 内 存 
B.4 计算 梯度 

本 节 是 为 想 用 TensorFlow.js 进行 微分 和 梯度 计算 的 读者 准备 的 ,对 于 本 书 介 绍 的 绝 大 部 分 深 
度 学 习 模 型 ， 微 分 和 梯度 计算 是 由 model .fit() 方 法 和 model .fitDataset () 方 法 目 动 完成 
的 。 然 而 ， 对 于 某 些 问题 类 型 ， 手 动 进行 微分 和 梯度 计算 仍 是 必要 的 。 第 7 章 中 介绍 的 ， 寻 找 能 


最 大 激活 卷 积 过 滤 需 的 图 像 的 示例 ， 以 及 第 11 章 介 绍 的 强化 学 习 示 例 就 属于 这 类 问题 。 
TensorFlow.js 提供 了 专用 于 这 种 使 用 场景 的 API。 让 我 们 用 一 个 极其 简单 的 场景 为 例 。 下 面 展 示 





















































由 事实 上 ， 这 个 实现 还 有 别 的 问题 。 例 如 ， 它 没有 检查 输入 张 量 是 否 至少 有 两 个 元 素 。 因 为 如 果 元 素 个 数 小 于 2， 
SD 就 会 是 私 ， 导 致 除 零 错误 ， 进 而 使 返回 的 结果 变 为 无 限 大 。 不 过 这 些 问 题 和 此 处 的 讨论 无 基 。 
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了 一 个 函数 ， 它 会 接收 一 个 张 量 作为 输入 ， 并 返回 一 个 新 张 量 作为 输出 。 


const f = x => tf.atan (x); 


cf.grad() 图 数 可 以 用 来 计算 函数 丰 天 于 输入 x 的 导数 。 

const df = tf.grad(f); 

注意 ，tf .gtrad () 不 会 直接 返回 导数 ， 而 是 返回 一 个 可 以 计算 原 函 数 导数 的 函数 af。 如 
下 所 示 ， 只 要 用 具体 的 x 值 调用 该 函数 ， 就 可 以 得 到 导数 值 df/ dx。 


const x = tf.tensor([-4, -2, 0, 2, 4]1); 
df (x) .print (); 


上 上面 的 代码 会 准确 地 算出 当 x 信 为 -4、-2、0、2 和 4 时 ，atan() 国 数 的 导数 ( 见 图 B-5 )。 


Tensor 
[0.0588235; QO.2;, 1;, OQ.2;, UYU.05808235| 








atan 

Ti 
1 

0.5 
0 
—0.5 
一 1 
一 1.5 

一 6 一 4 一 2 0 2 4 6 
atan (X) 


图 B-5 ” atan (x) 困 数 的 图 像 


tf.grad() 只 适用 于 接收 一 个 输入 张 量 的 函数 。 如果 函数 接收 多 个 张 量 怎么 办 呢 ?” 计 我们 以 
咀 数 h( (2 Y¥) nl 它 返 回 的 是 两 个 张 量 的 乘积 No 


const h = (x, y) => x.mul (y); 


tf.grads () (注意 方法 名 中 的 “s”) 会 生成 一 个 图 数 ， 该 图 数 会 返回 输入 因数 关于 所 有 参 
数 的 伺 微 分 。 

const dh = tf.grads (h); 

const dhValues = dh([ltf.tensorld([1, 21), tf.tensorld([-1, -2])1]); 


dhVvalues{[0] .print (); 
dhVvalues[1] .print () ， 


以 上 代码 的 运行 结果 如 下 。 
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[1, 2] 


上 面 的 结果 是 正确 的 ， 因 为 xxy 关 于 x 的 偏 微 分 是 y， 而 它 关 于 yy 的 偏 微 分 则 是 x。 

tt.grada() 和 tf.gradqs() 生 成 的 图 数 只 能 得 出 导数 ， 且 不 会 提供 原 另 数 的 返回 值 。 在 h(x, 
妇 函 数 的 示例 中 ， 如 采 我 们 不 仅 想 要 获得 导数 ， 而 且 还 想 获得 天 的 郴 数 值 ， 那 该 怎么 办 呢 ? 对 于 
这 种 场景 ， 可 以 使 用 tf.valueAndGCrads ( ) 函数 。 


tf.valueAndGrads (了 ) ， 
vdh([tf.tensorld([1, 21), tf.tensorld([-1, -2])|]1); 





const vdh 
Const out 


该 函数 的 输出 (out ) 是 一 个 对 象 ， 有 两 个 属性 : value 和 gradqs。 前 者 是 输入 值 对 应 的 加 
数 有 的 值 ， 后 者 则 和 tf .grads () 生 成 的 函数 的 返回 值 格式 相同 。 具 体 而 言 ， 它 是 一 个 包含 偏 微 
分 张 量 的 数组 。 


out .value.print (); 








out .grads [0] .Print (); 
out .grads[1] .print(); 





‘Tensor 

[= ， =4] 
Tensor 

[= = 
TEensor 

[| 


我 们 至 此 讨论 的 都 是 如 何 计算 函数 关于 它们 参数 的 导数 。 然 而 , 深度 学 习 中 涉及 权重 的 天 数 
计算 是 非常 常见 的 。 这些 权重 会 被 表示 为 tt.variable 对 象 , 并 且 不 会 百 接 作 为 参数 传人 困 数 。 
在 模型 训练 时 ， 我 们 通 稼 需要 计算 这 些 困 数 关 于 权重 的 导数 。tf.variableGraaqs () 图 数 正 是 
为 这 种 场景 设计 的 。 它 会 检测 要 微分 的 函数 和 哪些 可 训练 变量 有 关 , 然后 目 动 算出 函数 关于 这 些 
变量 的 导数 ， 如 下 面 的 示例 所 示 。 








const trainable = true; 

Const a = tf.variable(tf.tensorld([3, 4]), trainable, 'a'); 

const b = tf.variable(tf.tensorld([5, 6]), trainable, 'b'); |f(la, b) =a*x^2+b* x。 
const x = tf.tensorld([1, 2]); 此 处 使 用 sum() 方法 是 因为 


tf.variableGrads() 要 求 被 微 


const f = () => a.mul (x.sgquare()) .add(b.mul (x)) .sum().; 分 的 函数 返回 一 个 标量 


t {value, grads} = tf.variableGrads ( 工 ) ; 


tf.variableGrads () 的 输出 对 象 中 的 value 属性 存储 的 是 a、b 和 x 的 当前 取 值 对 应 的 f 
值 。 输 出 对 象 中 的 gragds 属性 则 是 一 个 JavaScript 对 象 。 该 对 象 的 两 个 键 分 别 对 应 两 个 变量 (a 
和 Pb )， 值 分 别 是 函数 关于 这 两 个 变量 的 导数 。 例 如 ，f (a，b) 关 于 a 的 导数 是 x^ 2，f(a，D) 
关于 bb 的 导数 是 x。 
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grads.a.print (); 
grads.b.print(); 


就 和 预期 的 一 样 ， 以 上 代码 的 输出 如 下 所 示 。 


Tensor 
[1, 4] 
Tensor 
[本 沁 ] 





B.5 练习 


(1) 用 tf .tensorBuffer() 创 建 一 个 满足 下 列 条 件 的 四 维 “ 单 位 张 量 ”( identity tensor )。 它 
的 形状 必须 是 [5，5，5，5] 。 除 了 索引 全 部 相同 的 元 素 〈 例 如 [2，2，2，2] ) 值 为 1 外 ,其 
他 的 元 系 信 全 部 为 0。 

(2) 用 tf.randomUniform() 创建 一 个 形状 为 [2，4，5] 的 三 维 张 量 ， 取 值 区 间 为 [0，1)。 
用 tf.sum() 编 写 一行 代 码 ， 沿 第 二 维度 和 第 三 维度 进行 求 和 归 约 运算 ， 并 观察 输出 。 它 的 形状 
应 为 [21。 根 据 你 的 估算 ， 各 元 素 的 值 应 为 多 少 ? 实际 输出 是 否 符合 你 的 预期 ? 

[提示 : 随机 分 布 在 [0，1) 区间 的 值 的 期 望 值 是 多 少 ? 两 个 这 样 的 值 的 和 的 预期 值 是 多 少 ( 假 
设 存 在 统计 上 的 独立 性 ) ? ] 

(3) 用 tf.randomUniform() 创 建 一 个 4 x 4 的 矩阵 (形状 为 [4，4] 的 二 维 张 量 )， 然 后 用 
cf.slice() 获 取 该 算 阵 中 心 的 2 x 2 的 子 矩 阵 。 

(4) 用 tf.ones()、tf.mul() 和 tf.concat() 创 建 一 个 满足 如 下 要 求 的 三 维 张 量 。 它 的 形 
状 必须 是 [5，4，3]。 沿 着 第 一 个 轴 的 第 一 个 切片 (切片 张 量 的 形状 为 [1，4，31 ) 中 的 所 有 
元 素 值 都 为 1， 沿 着 第 一 个 轴 的 第 二 个 切片 的 元 素 值 都 为 2， 以 此 类 推 。 

a. 附加 题 ， 这 个 张 量 元 素 众 多 。 光 徘 肉 眼 检 查 print () 生 成 的 文本 输出 很 难 测 试 张 量 是 否 
正确 。 你 有 没有 什么 方法 为 这 个 练习 写 一 个 单元 测试 ? ( 提示: 使 用 qata()、dataSync() 或 
rayewvret}.,) 

(5) 创建 一 个 JavaScript 男 数 ， 它 需要 对 两 个 输入 的 形状 相同 的 二 维 张 量 做 如 下 运算 。 首 先 ， 
将 这 两 个 矩阵 相 加 。 其 次 ， 将 它们 的 和 中 的 元 素 都 除 以 2。 最后， 对 生成 的 矩阵 进行 转 置 ， 然 后 
将 结 末 作为 输出 返回 。 

a. 这 个 国 数 会 用 到 哪些 TensorFlow.js 咀 数 ? 

b. 试 厦 用 六 数 式 API 和 链 式 API 这 两 种 写法 实现 该 函数 。 哪 种 实现 更 整洁 、 更 可 读 ? 

c. 上 述 步 又 中 的 哪 一 步 会 用 到 广播 机 制 ? 

d. 如 何 确 保 该 函数 不 会 造成 内 存 汇 漏 ? 

e. 如 何 写 一 个 单元 测试 (可 以 使 用 Jasmine 单元 测试 库 ), 来 确保 该 阴 数 不 会 导致 内 存 泄漏 ? 
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GraphModel 

在 TensorFlow.js 中 ，GraphModel 指 从 Python 版 TensorFlow 转换 到 JavaScript 生态 的 模型 。 
GraphModel 可 以 利用 TensorFlow 内 部 的 性 能 优化 机 制 ， 例 如 Grappler 的 计算 优化 和 运算 融合 
优化 〈 详 情 参见 12.2.2 市 )。 

epsilon 贪心 策略 (epsilon-greedy policy ) 

强化 学 习 中 的 一 种 行为 选择 方法 。 它 能 够 将 智能 体 在 随机 探索 行为 和 最 优 行为 间 的 平衡 性 参 
数 化 。epsilon 的 值 被 约束 在 0 ~ 1 范围 内 。 它 的 值 越 大 ， 智 能 体 就 越 倾 加 于 选择 随机 行为 。 

ImageNet 数据 集 

一 个 大 型 的 、 公 开 的 、 有 标签 彩色 图 像 数 据 集 。 对 于 计算 机 视觉 相关 的 深度 神经 网 络 ， 它 是 
一 个 重要 的 训练 集 和 基准 。ImageNet 数据 集 对 于 深度 学 习 音 命 的 发 端 至 关 重 要 。 

Inception 模型 

一 类 有 大 量 层 且 绪 构 复杂 的 次 度 卷 积 神经 网 络 。 

Keras 

深度 学 习 生 态 中 一 个 著名 的 库 ， 也 是 当下 的 Kaggle 竞赛 中 最 常用 的 库 之 一 。 它 的 原作 者 是 
弗 表 有 索 瓦 : 肖 汪 (他 现在 是 谷歌 的 一 名 软件 工程 师 )。Keras 是 一 个 基于 Python 编程 语言 的 库 。 
TensorFlow,js 的 高 阶 API ( 即 本 书 内 容 的 焦点 ) 正 是 基于 Keras 构建 的 ， 同 时 也 与 Keras 兼容 。 

LayersModel 

用 TensorFlow.js 提供 的 类 Keras 的 高 阶 API 构 建 的 模型 。 它 可 以 加 载 目 转 换 后 的 (Python 版 ) 
Keras 模型 。LayersModel 同时 文 持 推 新 (通过 predict () 方 法 ) 和 训练 (通过 fit () 方 法 和 
人 有 

MobileNet 模型 

一 个 预 训练 的 次 度 卷 积 神经 网 络 ， 一 般 是 基于 ImageNet 图 像 分 类 数据 集训 练 而 成 的 ， 并 可 
用 于 迁移 学 习 。 和 其 他 类 似 的 卷 积 神经 网 络 相 比 ， 它 较为 轻 量 ， 推 新 时 消耗 的 算 力 也 较 小 ， 因 此 
它 更 适合 用 TensorFlow.js 在 资源 受 限 的 浏览 冀 环 境 中 运行 。 

multi-hot 编码 (multi-hot encoding ) 

将 句子 中 的 单词 (或 者 更 笼统 地 说 ， 将 序列 中 的 各 项 ) 表示 成 回 量 的 方法 。 在 这 种 表示 中 ， 
和 单词 对 应 的 元 陛 会 被 设 为 1， 其 他 的 元 素 则 会 被 设 为 0。 可 以 将 multi-hot 编码 看 作 one-hot 编 
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码 的 泛 化 形式 。 它 会 舍弃 原 句 中 单词 的 顺序 信息 。 

one-hot 编码 (one-hot encoding) 

-种 将 类 别 数据 编码 成 长 度 为 入 的 癌 量 的 方法 。 癌 量 中 除了 和 实际 类 别 对 应 的 索引 外 ,其 他 
所 有 位 置 都 为 0。 

Q 网 络 (Q-network) 

网络 是 强化 学 习 中 , 一 种 可 以 根据 对 当前 状态 的 观察 , 预测 所 有 可 能 行为 的 CO 值 的 神经 网 
络 。QO 学 习 算 法 的 本 质 是 利用 智能 体 的 经 验 数据 训练 O 网 络 。 

Q 值 (Q-value) 

在 强化 学 习 中 ,CO 值 指 在 当前 状态 下 执行 某 行为 , 未 来 预期 获得 的 总 奖励 。 因 此 0O 值 是 行为 
和 状态 的 图 数 。 它 负责 引导 学 习 中 行为 的 选择 。 

ResNet 模型 (residual network, ResNet ) 

一 种 计算 机 视觉 领域 广泛 使 用 的 卷 积 网 络 ， 其 特色 是 采用 了 残 差 连接 (residual connection )， 
即 可 以 跳 过 部 分 层 的 连接 方式 。 

TensorBoard 工具 

一 种 为 Python 版 TensorFlow 设计 的 监测 和 可 视 化 工具 。 它 使 用 户 可 以 在 浏览 硕 中 可 视 化 模 
型 的 结构 和 训练 性 能 。TensorFlow.js 可 以 生成 与 TensorBoard 数据 格式 兼容 的 训练 日 志 。 

TensorFlow 

一 个 开源 的 可 以 加 速 机 人知 学 习 开 发 的 Python 库 ， 主 要 侧重 于 深度 神经 网 络 ， 于 2015 年 11 
月 由 谷歌 大 脑 团队 发 布 。TensorFlow.js 的 API 正 是 以 它 的 API 为 蓝图 设计 的 。 

visor 界面 (visor surface ) 

在 芭 S-vis〈 一 个 和 TensorFlow.js 深度 集成 的 可 视 化 库 ) 中 ，virsor 界面 指 网 页 上 边缘 部 位 的 
一 个 可 伸缩 区域。 它 可 以 用 一 个 简单 的 吨 数 调用 来 创建 ， 并 可 以 收纳 多 个 可 视 化 界面 。visor 内 
部 可 以 创建 多 个 标签 页 来 管理 这 些 可 视 化 界面 。 详 情 参见 8.1 市 。 

贝尔 曼 方程 (Bellman equation ) 

它 是 强化 学 习 中 量化 一 对 “状态 -行为 ”的 价值 的 递归 方程 式 ， 可 以 将 其 表示 为 下 面 这 两 项 
的 和 : () 行为 执行 后 ， 智 能 体会 立即 得 到 的 瞬时 奖励 ; (2) 智能 体 在 下 个 状态 中 ， 预 期 将 得 到 的 
(用 折扣 因子 ) 折 扣 化 后 的 最 佳 奖 励 。 第 (2) 项 是 基于 在 下 个 状态 中 执行 最 佳 行为 这 个 假设 得 出 的 。 
见 尔 曼 方 程 是 深度 CO 学 习 这 类 强化 学 习 算 法 的 理论 基础 。 

标签 〈label) 

对 于 当前 的 任务 ， 输 入 样 例 对 应 的 预期 答 采 。 标 签 可 以 是 布尔 值 ( 是 或 否 )、 数 字 、 字 符 串 
文本 、 诸 多 可 能 类 别 中 的 一 种 、 数 值 序列 或 其 他 更 复杂 的 数据 类 型 。 在 监督 式 学 习 中 ， 模 型 的 目 
标 是 尽 可 能 生成 和 标签 匹配 的 输出 。 

策略 梯度 (policy gradient) 

一 种 强化 学 习 算 法 。 它 会 计算 并 利用 所 选 行为 的 某 些 值 (例如 对 数 ) 关于 策略 网 络 的 权重 的 
梯度 ， 使 策略 网 络 逐 渐 改 进行 为 决策 。 
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层 〈layer) 

在 神经 网 络 的 语 境 下 , 层 是 对 数据 表示 的 转换 。 它 的 作用 和 数学 另 数 类 似 : 对 于 给 定 的 输入 ， 
生成 一 个 输出 。 层 的 状态 记录 在 它 的 权重 中 。 神 经 网 络 可 以 在 训练 中 修改 这 些 权重 。 

插值 (imputation ) 

一 种 填补 数据 集中 缺失 值 的 技巧 。 例 如 ， 如 果 我 们 有 一 个 关于 车 的 数据 集 ， 其 中 有 些 车 的 数 
据 缺 失 “ 重 量 ” 特 征 。 这 种 情况 下 ， 就 可 以 用 车 的 平均 重量 来 填补 缺失 的 特征 值 。 此 外 ， 还 有 一 
些 更 精巧 的 插值 技巧 。 

常量 折 又 (constant folding) 

一 种 计算 图 优化 。 在 这 种 优化 中 ， 如 采 子 图 只 包含 可 预知 ( predetermined ) 的 稼 量 季 点 和 具 
有 确定 性 ( deterministic ) 的 运算 ， 那 么 它 会 被 归 约 成 单个 常量 市 点 。TensorFlowjs 中 的 
GraphModel 转换 技巧 正 是 利用 常量 折 装 实现 的 。 

起 参数 (hyperparameter) 

模型 的 可 调 参 数 和 反问 传播 中 不 可 调 的 优化 器 。 一般 而 言 , 学 习 率 和 模型 架构 都 是 常见 的 超 
参数 。 网 格 搜 索 ( grid search ) 和 其 他 更 精巧 的 超 参 数 调 优 算法 都 可 以 实现 超 参 数 调 优 。 

超 参 数 优 化 ‘hyperparameter optimization ) 

有 时 又 叫 超 参数 调 优 (hyperparameter tuning )， 指 对 于 给 定 的 机 融 学 习 任 务 ， 搜 过 能 够 最 小 
化 验证 集 损失 的 一 组 超 参 数 的 过 程 。 

超出 单词 表 范 围 (out-of-vocabulary, OOV) 

在 深度 学 习 中 ， 当 将 单词 表 用 于 一 组 离散 的 元 素 时 ， 单 词 表 有 时 不 能 赛 括 所 有 可 能 的 元 素 。 
当 遇 到 一 个 不 在 单词 表 中 的 元 素 时 ， 它 会 被 映射 到 一 个 特殊 的 索引 : 超出 单词 表 范 围 (OOV )。 
该 索引 可 以 进一步 映射 到 one-hot 编 但 或 通信 表 示 中 的 一 个 特殊 元 素 上 。 人 参见 单词 表 。 

词 租 入 《word embedding ) 

针对 文本 的 神经 网 络 使 用 的 一 种 回 量 化 单词 的 方法 。 通 过 和 通 人 查询 过 程 , 单词 会 被 映射 到 一 
个 一 维 张 量 ( 即 癌 量 ) 上 。 和 one-hot 编码 不 同 ， 词 艇 入 表示 的 是 非 稀 玖 的 问 量 。 癌 量 中 的 元 系 
值 为 连续 且 变 化 的 ， 而 不 是 仪 为 0 或 1。 

单词 表 (vocabulary) 

在 深度 学 习 中 , 单词 表 指 一 组 离散 的 、 互 不 相同 的 元 系 。 这 些 元 系 可 以 用 作 神 经 网 络 的 输入 
或 输出 。 一 般 而 言 ， 单 词 表 中 的 每 个 元 系 都 可 以 映射 到 一 个 整数 索引 上 ， 然 后 进一步 转换 为 
one-hot 编码 或 艇 和 表示。 

点 积 (dot product) 

参见 内 积 的 定义 。 

独立 同 分 布 (independent and identically distributed, IID) 

独立 同 分 布 是 数据 样本 的 统计 特性 。 如 采 假 设 样本 是 从 某 种 分 布 采样 得 来 的 ， 只 要 每 个 样本 
来 和 目 同 一 个 分 布 , 那么 它们 的 分 布 情况 就 是 相 同 的 。 只 要 知道 某 个 样本 的 值 不 会 提供 任何 关于 下 
一 个 样本 的 信息 ， 就 可 以 说 样本 是 独立 的 。 

一 组 通过 扩散 子 得 到 的 数据 样本 就 是 ID 的 例子 。 如 果 这 些 样 本 被 排 夺 了 ， 那么 它们 仍 是 同 
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分 布 的 ， 但 不 再 独立 。 训 练 数据 应 该 是 ID 的 ， 否 则 训练 中 可 能 会 出 现 收敛 问题 或 其 他 问题 。 

对 数值 〈logit) 

在 机 希 学 习 中 , 对 数 人 是 一 种 非 标准 化 的 概率 值 。 和 一 般 概 率 信 不 同 ,对 数值 不 仅 限 于 [0, 1] 
区 间 ， 也 无 须 求 和 到 1。 因 此 ， 它 们 更 适合 作为 神经 网 络 层 的 输出 。 对 数 集合 可 以 通过 一 种 名 为 
归 一 化 指数 ( softmax ) 函数 的 运算 ， 标 准 化 为 一 般 的 概率 值 。 

多 层 感知 器 (multilayer perceptron, MLP ) 

一 种 采用 前 僻 拓 扑 结构 且 至 少 包 含 一 个 隐藏 层 的 神经 网 络 。 

多 分 类 (multiclass classification) 

目标 的 可 能 类 别 大 于 两 个 离散 标签 的 分 类 问题 。 例 如 ,判断 图 片 中 包含 的 是 什么 动物 ， 判断 
网 页 中 的 文本 内 容 使 用 的 是 什么 ( 自然 ) 语言 。 

二 分 类 (binary classification) 

一 种 目标 是 回答 “是 或 否 ” 问 题 的 分 类 任务 。 比 如 ， 判 断 某 个 X 光 相 片 图 像 是 否 有 肺炎 这 
象 ， 或 判断 某 条 信用 卡 交 易 记 录 是 否 合 规 、 是 否 有 欺诈 嫌疑 。 

反 向 传播 (backpropagation) 

该 算法 会 根据 可 微 的 机 融 学 习 模 型 的 损失 值 回溯 出 权重 参数 的 梯度 , 其 背后 的 理论 基于 微分 
中 的 链 式 法 则 。 它 也 是 本 书 中 绝 大 部 分 神经 网 络 训练 所 依靠 的 基础 理论 。 

非 线性 (nonlinearity) 

不 满足 线性 定义 (由 输入 的 续 性 组 合 得 到 的 输出 ,等 于 输出 的 线性 组 合 加 上 一 个 常量 ) 的 输 
人 与 输出 关系 。 在 神经 网 络 中 ， 非 线性 关系 ( 例如 层 中 的 sigmoid 和 ReLU 激活 也 数 ) 以 及 多 个 
非 线 性 关系 的 级 联 可 以 增加 神经 网 络 的 容量 。 

符号 张 量 (symbolic tensor) 

在 TensorFlow.js 中 ， 符 号 张 量 指 SymbolicTensor 类 的 实例 ， 它 定义 了 张 量 的 形状 和 数据 
类 型 ( 即 qtype )。 但 和 普通 张 量 不 同 ，symbolicTensor 对 象 不 包含 具体 的 值 。 它 只 是 层 或 模 
型 的 输入 或 输出 的 占 位 符 。 

广播 机 制 (broadcasting) 

TensorFlowjs 允许 在 两 个 形状 不 同 但 兼容 的 张 量 间 进 行 元 系 间 运算 ,例如 ,可 以 将 形状 为 [5] 
的 张 量 加 到 形状 为 [13，5] 的 张 量 上 。 在 实际 运算 中 ， 形 状 较 小 的 张 量 会 被 复制 13 遍 来 计算 最 
后 的 结果 。 广 播 机 制 的 具体 规则 以 及 何 时 适用 ， 请 参见 第 2 草 的 信息 栏 2-4。 

过 拟 合 (overfitting》 

模型 对 训练 集 的 一 种 拟 合 场景 。 在 这 种 场景 中 , 模型 有 足够 的 容量 记 住 训练 数据 。 随 痢 训 练 
损失 不 断 下 降 ， 测 试 损 失 或 验证 损失 反而 开始 上 升 。 发 生 过 拟 合 的 模型 会 逐渐 失去 泛 化 的 能 
只 能 准确 预测 训练 集中 见 过 的 样 例 。 

黄金 值 (golden value) 

在 测试 机 需 学 习 系 统 的 语 境 下 ， 黄 金 值 指 模型 对 于 某 个 输入 应 该 生成 的 正确 输出 。 例 如 ， 对 
于 一 个 能 够 将 音频 分 类 为 正确 首 乐 流派 的 神经 网 络 而 言 ， 如果 输 入 的 是 贝多 分 的 《第 五 交 啊 曲 》， 
那么 黄金 值 就 是 “古典 首 乐 ”这 个 标签 。 
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回归 (regression) 

想 要 的 输出 〈 即 标签 ) 是 数值 或 数值 列表 的 学 习 问 题 。 实 际 预测 和 预期 输出 越 接 近 越 好 。 

混淆 矩阵 (confusion matrix) 

一 个 形状 为 [numclasses，numclasses] 的 正方 形 和 矩阵 〈 即 二 维 张 量 )。 在 多 分 类 任务 中 ， 
混 消 和 矩阵 被 用 来 量化 对 于 各 个 给 定 的 真实 类 别 , 样 例 有 和 多少 次 分 别 被 划 入 各 个 类 别 。 位 于 索引 [i， 
j] 的 元 素 表 示 来 目 真 实 类 别 i 的 样 例 被 归 为 类 别 j 的 次 数 。 位 于 和 矩阵 对 角 线 上 的 元 素 对 应 的 是 
正确 的 分 类 结果 。 

机 器 学 习 (machine learning) 

机 需 学 习 是 人 工 智 能 ( artificial intelligence, AI ) 的 一 个 子 领域 。 它 可 以 通过 学 习 标 注 了 预期 
答案 的 有 标签 数 据 ， 目 动 地 探索 能 够 解决 复 森 问题 的 规则 。 它 和 传统 的 编程 模式 不 同 ， 因 为 无 须 
人 工 设 计 解决 问题 的 规则 。 

基于 时 间 的 反 向 传播 (backpropagation through time, BPTT) 

反 回 传播 的 一 种 特殊 形式 。 和 一 般 的 反 回 传播 不 同 的 是 , 它 回溯 的 不 是 模型 中 堆 登 的 神经 层 
的 运算 ， 而 是 连续 的 时 间 步 的 运算 。 它 是 循环 神经 网 络 ( recurrent neural network, RNN ) 训练 理 
后 的 基础 理论 。 

激活 函数 〈activation function ) 

神经 网 络 层 的 最 后 一 个 环节 。 例 如 , 在 密集 层 中 , 可 以 将 矩阵 乘法 的 运算 结果 输入 一 个 修正 
线性 单元 (rectified linear unit, ReLU ) 激活 图 数 中 ， 然 后 将 该 遇 数 的 结果 作为 密集 层 的 最 终 输 出 。 
激活 函数 可 以 是 线性 的 , 也 可 以 是 非 线 性 的 。 非 线性 激活 函数 可 以 增强 神经 网 络 的 表示 能 力 (或 
者 说 容量 )。sigmoid、 双 曲 正切 晒 数 (hyperbolic tangent, tanh ) 和 上 文 提 到 的 ReLU 都 属于 非 线 
性 激活 函数 。 

集成 学 习 (ensemble learning ) 

训练 大 量 单个 机 融 学 习 模 型 ,然后 将 它们 一 起 用 于 对 同一 个 问题 的 推 新 的 学 习 策 略 。 尽 管 单 
个 模型 的 预测 可 能 并 不 准确 ， 但 集成 后 的 模型 准确 率 会 高 得 多 。 数 据 科 学 竞赛 (例如 Kaggle 竞 
赛 ) 中 的 获奖 模型 往往 会 使 用 集成 学 习 。 

计算 机 视 党 《computer vision ) 

关于 如 何 让 计算 机 理解 图 像 和 视频 的 人 研究 。 它 是 机 天 学 习 的 重要 组 成 部 分 。 在 机 硕 学习 的 霹 
境 下 ， 和 管见 的 机 右 学 习 任 务 包括 图 像 识 别 、 图 像 分 割 、 图 像 标 注 和 目标 识别 。 

假设 空间 (hypothesis space) 

在 机 楷 学 习 的 语 境 下 , 假设 空间 指 机 带 学 习 问 题 可 能 的 解决 方 宁 的 集合 。 模型 的 训练 正 是 在 
假设 空间 中 搜索 一 个 好 的 解决 方案 。 假 设 空间 是 由 你 选择 的 机 可 学 习 模 型 类 型 和 染 构 决定 的 。 

监督 式 学 习 (supervised learning) 

用 有 标签 样 例 训 练 机 需 学 习 模 型 的 范式 。 在 学 习 过 程 中 , 模型 的 内 部 参数 会 不 断 调整 ， 从 而 
最 小 化 模型 针对 样 例 的 输出 和 样 例 实际 标签 间 的 差距 。 

精确 率 (precision) 

二 分 类 融 的 一 个 度量 指标 。 它 是 分 类 需 标 为 正 例 的 样 例 数 和 实际 为 正 例 的 样 例 数 的 比率 。 参 
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见 召 回 率 的 定义 。 

局 部 极 小 点 (local minimum) 

局 部 极 小 点 指 优化 模型 参数 时 的 一 组 特殊 参数 状态 。 在 该 状态 下 , 参数 的 任何 细微 变化 都 会 
导 公 损失 的 增加 。 就 和 位 于 碗 底 的 弹 珠 一 样 , 没有 任何 移动 方式 可 以 让 弹 珠 移动 到 比 硕 底 更 低 的 
位 置 了 了。 与 全 局 最 小 点 ( global minimum ) 不 同 ， 局 部 极 小 点 只 是 局 部 范围 内 值 的 最 低 点 ， 而 前 
者 是 全 局 范围 下 值 的 最 低 点 。 

卷 积 核 ‘convolutional kernel) 

负责 在 卷 积 运算 中 , 将 输入 张 量 变 成 某 种 输出 张 量 的 张 量 。 以 网 像 张 量 为 例 ， 卷 积 核 的 宽 维 
度 和 高 维度 通 向 比 输入 岁 像 小 。 它 会 沿 着 输入 网 像 的 宽 维 度 与 局 维度 “滑动 ， 并 在 每 个 滑动 位 
置 ， 与 覆盖 的 输入 图 像 部 分 进行 点 乘 运算 〈 元素 相 乘 ， 然 后 对 乘积 求 和 )。 对 于 TensorFlow.js 中 
的 卷 积 层 ( 例如 conv2d 层 )， 卷 积 核 是 它们 的 关键 权重 。 类 激活 图 (class activation map, CAM ) 

一 种 可 视 化 输入 图 像 不 同 部 位 对 于 卷 积 神经 网 络 分 类 输出 的 相对 重要 性 的 算法 。 它 是 基于 计 
算 输 出 的 最 高 的 概率 值 关 于 最 后 一 个 内 部 卷 积 层 的 输出 梯度 得 到 的 。 详 情 参见 7.2.3 节 。 

轮 次 〈epoch ) 

运用 训练 集中 的 所 有 数据 对 模型 进行 的 一 次 完整 的 训练 。 

马尔 可 夫 决 策 过 程 (Markov decision process, MDP ) 

在 强化 学 习 中 ,马尔 可 夫 决 策 过 程 是 指 ， 当 前 状态 和 智能 体 选 择 的 行为 ,可 以 完全 决定 智能 
体 的 下 一 个 状态 以 及 该 时 间 步 所 获奖 励 的 决策 过 程 。 对 于 0 学 习 这 类 学 习 算 法 而 言 ， 这 种 对 问 
题 的 简化 是 必要 的 。 

模型 (model) 

在 机 融 学 习 和 深度 学 习 中 ， 模 型 是 一 种 能 够 通过 一 系列 数学 运算 ， 将 输入 数据 ( 例如 图 像 ) 
转换 成 预期 输出 ( 例如 图 像 对 应 的 文本 标注 ) 的 对 象 。 模 型 的 参数 〈 即 权重 ) 在 训练 期 间 是 可 
调 的 。 

模型 部 署 (model deployment) 

封装 训练 好 的 模型 ,使 其 可 以 放 到 想 要 的 环境 中 来 做 预测 的 过 程 . 和 其 他 软件 系统 提供 的 "发 
布 到 生成 环境 ”功能 类 似 ， 部 署 是 让 用 户 “ 真 正 ” 使 用 模型 的 方法 。 

模型 自 适 应 (‘model adaptation ) 

为 了 在 来 自 特 定 用 户 和 特定 使 用 场景 的 数据 上 达到 更 高 的 推断 准确 率 , 而 训练 整个 或 部 分 预 
训练 模型 的 过 程 。 它 是 迁移 学 习 的 一 种 ， 其 中 输入 特征 类 型 和 目标 类 型 和 原 模 型 一 致 。 

目标 检测 (object detection ) 

检测 图 像 中 是 否 存 在 某 类 目标 及 其 位 置 的 计算 机 视觉 任 务 。 

内 积 (inner product) 

又 叫 作 点 积 ( dot product )。 两 个 形状 相同 的 癌 量 间 的 数学 运算 ， 其 结果 为 一 个 标量 。 和 在 要 计 
算 向 量 a 和 向 量 b 之 间 的 内 积 ， 对 于 所 有 可 取 的 值 1, 对 afril * b[i] 求 和 即 可 。 从 几何 的 角 
度 来 看 ， 两 个 癌 量 的 内 积 相 当 于 其 长 度 的 积 乘 以 其 夹 角 的 余弦 。 
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批 次 (batch) 

训练 神经 网 络 时 , 一 般 会 将 多 个 输入 样 例 聚 合成 一 个 张 量 , 然后 用 该 张 量 计算 网 络 中 权重 的 
梯度 并 更 新 这 些 权 重 。 这 种 对 输入 样 例 的 聚合 叫 作 批 次 (batch )。 批 次 包含 的 样 例 数 则 叫 作 批 尺 
本 (batch size )。 

迁移 学 习 (transfer learning) 

它 指 将 之 前 为 某 个 任务 训练 的 机 楷 学 习 模 型 ， 用 ( 和 原 训练 集 的 规 檬 相 比 ， 相 对 ) 少量 的 新 
数据 为 新 任务 进行 重新 训练 ， 再 用 于 新 任务 的 推 呆 的 实践 。 

欠 拟 合 (underfitting》 

如 采 模 型 在 训练 中 经 历 的 优化 步骤 太 少 ， 或 者 模型 的 表示 能 力 (容量 ) 不 足 ， 以 至 于 无 法 学 
习 训 练 集中 的 模式 ， 就 会 导致 训练 得 到 的 模型 无 法 达到 可 接受 的 质量 。 在 这 种 情况 下 ， 就 说 模型 
处 于 灾 拟 合 状态 。 

骨 入 (embedding ) 

在 深度 学 习 中 ， 对 于 某 个 数据 在 n 维 癌 量 空间 (7 为 正 整 数 ) 的 表示 。 换 言 之 ， 它 会 将 数据 
表示 为 有 序 的 、 长 为 n 的、 由 浮 点 数组 成 的 数组 。 很 多 数据 类 型 都 可 以 用 黄 入 表示 ， 包 括 图 像 、 
音频 、 词 语 和 闭 集 中 的 元 素 。 般 入 表示 一 般 来 目 训 练 后 的 神经 网 络 的 中 间 层 。 

强化 学 习 (reinforcement learning, RL) 

机 妖 学 习 的 一 种 ， 可 以 通过 与 环境 的 交互 学 习 一 种 最 优 决 倘 ， 这 种 决 东 能 最 大 化 叫 作 奖 励 
(reward ) 的 度量 指标 。 本 书 第 11 章 讲 解 了 RE 的 基础 知识 ， 以 及 如 何 用 深度 学 习 技 巧 解决 简单 
的 RL 问题 。 

曲线 下 面积 (area under the curve, AUC) 

用 于 量化 ROC 曲线 形状 的 数字 , 其 定义 为 ROC 曲线 下 的 定 积 分 , 积分 的 区 间 为 假 正 例 率 为 
0~1 的 区 间 。 具 体 含 义 参见 受 试 者 操作 特征 曲线 ( 即 ROC 曲线 ) 的 定义 。 

权重 (weight) 

神经 网 络 层 的 可 调 参 数 。 改变 权重 会 改变 神经 层 将 输入 转换 成 输出 时 , 计算 使 用 的 一 些 具体 
数值 。 神 经 网 络 训练 的 核心 加 是 以 系统 的 方式 更 新 权重 但。 

权重 量化 (weight quantization ) 

一 种 缩减 模型 序列 化 体积 以 及 传输 体积 的 技巧 。 它 是 通过 以 比 当前 更 小 的 数值 精度 储存 模型 
的 权重 参数 实现 的 。 

容量 (capacity) 

机 融 尝 习 模 型 可 以 学 习 的 输入 与 输出 间 关 系 的 范围 。 例 如 , 使 用 一 个 隐藏 层 和 非 线 性 激活 也 
数 的 神经 网 络 的 容量 就 比 一 个 单纯 的 线性 回归 模型 要 高 。 

深度 神经 网 络 (deep neural network) 

拥有 大 量 (从 两 个 到 甚至 上 千 个 ) 层 的 神经 网 络 。 

深度 学 习 (deep learning ) 


对 这 度 神经 网 络 的 研究 与 应 用 〈 即 用 大 量 堆 三 的 表示 转换 解决 机 带 学 习 问 题 )。 
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神经 网 络 (neural network ) 

一 类 受 生 物 神 经 系统 中 的 层 结构 局 发 的 机 需 学 习 模 型 。 神 经 网 络 中 的 层 会 对 输入 数据 的 表示 
进行 多 步 对 、 可 分 离 的 表示 转换 。 

生成 式 对 抗 网 络 (generative adversarial network, GAN ) 

生成 式 模 型 的 一 种 ， 由 两 个 部 分 组 成 : 判别 器 ( discriminator ) 和 生成 器 〈 generator )。 判 别 
需 通 过 训练 可 以 分 辩 来 目 训 练 集 的 真实 数据 和 伪造 数据 。 生 成 硕 通 过 训练 可 以 生成 让 判别 天 输出 
高 真实 度 值 的 假 样 例 ( 即 “ 驹 过 ”判别 闫 ， 让 它 误 以 为 假 样 例 是 真 的 )。 通 过 适当 的 训练 ， 生 成 
需 就 可 以 学 会 生成 高 度 通 中 的 假 样 例 。 

时 频谱 (spectrogram) 

一 种 对 一 维 时 间 信 号 (例如 音频 ) 的 类 图 像 二 维 表示 。 时 频谱 有 两 个 维度 时 间 和 频率 。 其 
中 每 个 元 系 表示 在 给 定 的 时 刻 及 给 定 的 频率 范围 内 ， 首 频 的 强度 或 能 量 。 

受 试 者 操作 特征 曲线 (the receiver operating characteristics curve, ROC curve) 

一 种 二 分 类 需 的 真正 例 率 (true positive rate， 即 召回 这 ) 和 假 正 例 率 ( false positive rate， 即 
误 报 率 ) 间 取 侈 的 可 视 化 方式 。 该 曲线 的 名 称 源 自 早期 的 雷达 技术 。 参 见 曲 线 下 面积 ( AUC )。 

(数据 集 的 ) 平衡 性 (balance) 

包含 类 别 标签 的 数据 集 的 一 个 特征 。 数据 集中 不 同类 别 标签 的 样 例 数量 越 接近 ,数据 集 就 越 
全。 

数据 增强 (data augmentation ) 

从 现 有 的 训练 样 例 (x, y) 生 成 更 多 训练 样 例 的 过 程 。 该 过 程 会 通过 某 种 特定 的 转换 规则 创建 原 
样 例 的 变种 过， 但 并 不 改变 原 预 测 目标 。 这 有 助 于 证 模型 目 主 学 习 数据 的 不 同 部 分 ， 并 更 好 地 将 
习 得 的 规则 泛 化 到 测试 数据 。 这 样 可 以 避免 让 工程 师 为 模型 手动 设计 应 对 数据 形式 变化 的 方法 。 

随机 初始 化 (random initialization ) 

在 拟 合 模 型 前 , 给 权重 赋 上 一 个 初始 值 作为 训练 的 起 点 的 过 程 。 关 于 如 何 根 据 层 类 型 、 尺 寸 
和 任务 ， 挑 选 初 始 化 使 用 的 分 布 有 很 多 相关 文献 可 以 参考 。 

特征 〈feature ) 

机 融 尝 习 模 型 的 输入 数据 的 一 个 维度 。 特 征 可 以 是 下 列 任何 形式 之 一 : 

口 数值 (例如 信用 卡 上 某 笔 交易 的 数额 ); 

口 来 目 某 个 开 集 的 字符 串 ( 例如 交易 的 名 称 ); 

口 某 个 类 别 信息 ( 例如 提供 信用 卡 的 金融 机 构 的 名 称 ); 

口 一 维 或 多 维 的 数组 ( 例如 用 二 维 数组 表示 的 信用 卡 用 户 签 名 的 灰 度 图 像 ); 

口 其 他 类 别 的 信息 〈 例 如 信用 卡 的 有 歼 期 )。 

一 个 输入 样 例 可 以 包含 一 个 或 多 个 特征 。 

特征 工程 (feature engineering ) 

将 输入 数据 中 的 原 特 征 转 换 为 更 适用 于 解决 当前 机 各 学 习 问 题 的 表示 的 过 程 。 在 深度 学 习 持 
命 之 前 ， 特 征 工 程 一 般 是 由 拥有 特定 领域 知识 的 工程 师 通 过 不 断 试 错 完成 的 。 这 往往 是 个 既 费 力 
又 容易 出 错 的 过 程 ， 并 且 无 法 保证 能 否 找到 最 优 解 。 次 度 学 习 在 很 大 程度 上 目 动 化 了 特征 工程 。 










































































444 术语 表 


梯度 下 降 (gradient descent) 

通过 沿 着 梯度 方 品 ( 参数 关于 输出 值 的 导数 )， 逐 步 改 变 系 统 的 参数 ， 从 而 最 小 化 系统 的 输 
出 值 的 过 程 。 这 是 神经 网 络 的 主要 训练 方式 。 在 神经 网 络 训练 的 语 境 下 ， 系 统 是 由 神经 网 络 构成 
的 ， 而 损失 函数 则 是 由 工程 师 选 择 的 。 系 统 的 参数 是 神经 网 络 各 层 的 权重 。 每 个 迭代 会 从 训练 集 
中 抽取 一 个 批 次 用 于 训练 。 

梯度 消失 问题 (vanishing-gradient problem) 

这 是 深度 学 习 网 络 训练 中 会 遇 到 的 一 个 经 典 问题 , 指 随 着 层 数 增加 ,权重 参数 的 梯度 越 来 越 
小 , 权重 参数 因此 变 得 离 损失 函数 越 来 越 远 。 在 现代 深度 学 习 中 ,这 种 问题 可 以 通过 改进 激活 函 
数 、 恰 当 的 权重 初始 化 和 其 他 技巧 来 缓解 。 

图 形 处 理 器 (graphics processing unit, GPU) 

用 于 并 行 计算 的 芯片 ， 它 的 核 数 (上 百 或 上 干 个 ) 比 一 般 的 CPU 要 多 得 多 。GPU 原本 是 为 
了 加 速 二 维 图 形 和 三 维 图 形 的 计算 和 演 染 设计 的 。 但 是 , 它们 碰巧 也 适用 于 深度 神经 网 络 所 需 的 
并 行 计 算 。GPU 是 深度 学 习 半 命 的 一 个 重要 助力 ， 并 且 仍 在 当下 的 深度 学 习 人 研究 和 应 用 中 扮演 
者 关键 角色 。TensorFlow.js 有 两 种 利用 GPU 的 并 行 计算 能 力 的 途径 : (1) 浏览 帮 的 WebGL API; 
(2) Node.js 和 TensorFlow 中 的 CUDA 核 限 数 的 绑 定 (binding )。 

推断 (inference) 

让 机 右 学 习 模 型 基于 输入 数据 生成 输出 。 这 是 训练 模型 的 最 终 意义 所 在 。 

微调 (fine-tuning) 

迁移 学 习 的 一 个 阶段 。 在 这 个 阶段 中 ,可 以 更 新 基 模 型 某 些 层 的 权重 。 人 微调 阶段 通常 发 生 在 
模型 经 过 一 段 训练 之 后 。 在 训练 的 初期 ， 基 模型 的 所 有 权重 都 会 被 固化 ， 从 而 避免 较 大 的 初始 梯 
度 过 度 影响 预 训练 的 权重 。 如 果 使 用 得 当 , 微调 可 以 提升 迁移 学 习 的 容量 ， 从 而 实现 较 好 的 准确 
率 ， 但 又 不 会 像 从 头 训 练 整个 模型 那样 消耗 过 多 的 计算 资源 。 

维度 (dimension) 

在 张 量 的 语 境 下 ， 维 度 和 轴 是 同义词 。 详 情 参 见 轴 的 定义 。 

伪 样 例 pseudo example ) 

基于 训练 样 例 的 已 知 变种 形态 的 额外 样 例 。 它 们 可 以 用 于 辅助 训练 数据 。 例 如 ， 可 以 在 
MNIST 数据 集 的 基础 上 ， 给 数据 集中 的 数字 添加 轻微 的 旋转 和 仿 笠 。 这 些 变 化 并 不 会 改变 图 像 
的 标签 。 

无 监督 式 学 习 (unsupervised learning) 

使 用 非 标签 数据 的 机 融 学 习 犯 式 。 它 和 监督 式 学 习 相 对 ， 因 为 后 者 使 用 的 是 有 标签 数据 。 无 
监督 式 学 习 的 例子 包括 聚 类 ( 发 现 数据 集 样 例 中 的 独特 子 集 ) 和 异常 检测 (判断 给 定 的 样 例 和 训 | 
练 集中 的 样 例 是 否 足够 不 同 )。 

向 量化 (vectorization) 

将 非 数 值 数据 转换 成 数值 数组 表示 ( 例如 癌 量 ) 的 过 程 。 例 如 ， 文 本 癌 量化 指 将 字符 、 单 词 
或 句子 转换 成 回 量 表示 。 
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学 习 率 (learning rate ) 

在 梯度 下 降 的 过 程 中 , 模型 的 权重 会 被 更 新 来 减 小 损失 。 权 重 的 实际 变化 不 仅 关 于 损失 梯度 
的 函数 ,而 且 还 关于 学 习 率 参数 的 孔 数 。 在 标准 的 梯度 下 降 算法 中 ,权重 的 更 新 幅度 是 通过 将 梯 
度 和 学 习 率 相 习 得 到 的 , 其 中 后 者 一 般 是 一 个 较 小 的 、 值 为 正 的 和 常数。 在 TensorFlowjs 中 ,'sgqd' 
优化 硕 的 默认 学 习 率 是 0.01。 

训练 (training) 

改变 机 器 学 习 模 型 的 内 部 参数 (权重 )， 从 而 使 模型 的 输出 更 接近 预期 答案 的 过 程 。 

训练 集 (training data ) 

用 于 训练 机 融 学 习 模 型 的 数据 。 训 练 集 由 单个 训练 样 例 组 成 。 每 个 样 例 的 信息 都 是 结构 化 的 
(例如 图 像 、 音 频 或 文本 )， 并 且 附 有 预期 的 答案 〈 标 签 )。 

验证 集 (validation data ) 

这 部 分 数据 是 为 了 调整 超 参数 〈 例 如 学 习 率 和 密集 层 的 单元 数 )， 从 训练 集中 单独 拆 分 出 来 
的 一 部 分 数据 。 验 证 数据 使 我 们 可 以 调整 学 习 算法 〈 可 能 需要 多 次 重复 训练 过 程 )。 因 为 验证 集 
和 测试 集 是 分 离 的 ， 所 以 仍 能 依 徘 测试 集 提 供 关 于 模型 在 新 的 、 未 见 过 的 数据 上 的 无 偏 估 计 。 

样 例 (example) 

在 机 希 学 习 的 霹 境 下 , 样 例 是 一 个 模型 的 输入 数据 的 实例 (例如 ， 和 机 希 视 党 模型 所 需 输入 
尺寸 匹配 的 某 个 图 像 数 据 )。 机 医学 习 模 型 会 针对 样 例 输出 预测 结 采 (例如 图 像 的 标签 )。 

隐藏 层 (hidden layer) 

神经 网 络 中 不 作为 网 络 输 出 层 的 一 层 ， 它 的 输出 会 传人 网 络 的 其 他 层 。 例 如 ， 在 用 
TensorFlow.js 创建 的 顺序 ( sequential ) 模型 中 ， 除 了 最 后 一 层 之 外 的 所 有 层 都 是 隐藏 层 。 

运算 融合 (op fusion ) 

一 种 计算 图 优化 方法 。 该 方法 会 将 多 个 运算 ( operation ， 人 简称 op ) 符 换 成 一 个 等 效 的 运算 。 
运算 融合 可 以 减少 执行 多 次 运算 的 额外 开销 , 并 使 之 后 有 更 多 机 会 进行 运算 内 的 内 存 优化 和 性 能 
优化 。 

张 量 〈tensor) 

一 种 用 于 储存 数据 元 系 (通常 是 数字 ) 的 数据 结构 。 可 以 将 张 量 看 作 一 种 n 维 网 格 ， 网 格 中 
的 每 个 位 置 都 正好 存 有 一 个 元 系 。 维 度 的 数量 ， 以 及 每 个 维度 的 尺寸 叫 作 张 量 的 形状 ( shape )。 
例如 ，3 x 4 的 矩阵 就 是 一 个 形状 为 [3，41 的 张 量 。 长 度 为 10 的 回 量 就 是 一 个 形状 为 [101] 的 一 
维 张 量 。 每 个 张 量 实例 只 能 储存 一 类 元 系 。 张 量 之 所 以 末 用 这 种 设计 是 为 了 方便 且 高 效 地 实现 深 
度 学 习 中 必 备 的 常见 运算 ， 例 如 和 矩阵 的 点 积 运算 。 

召回 率 (recall) 

二 分 类 融 的 一 个 度量 指标 。 它 是 实际 为 正 例 的 样 例 被 分 类 需 标 为 正 例 的 比率 。 人 参见 精 确 率 的 
定义 。 

正则 化 〈regularization ) 

在 机 妖 学 习 中 ,正则 化 指 为 了 应 对 过 拟 合 而 修改 损失 函数 和 训练 过 程 的 过 程 。 正 则 化 有 好 几 . 
种 方式 ， 最 常见 的 是 针对 权重 的 Ll 正则 化 和 LL2 正则 化 。 
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轴 (axis， 复 数 axes ) 

在 TensorFlow.js 的 语 境 下 ,， 轴 指 能 够 对 张 量 进行 索引 的 单个 独立 的 键 。 例如 , 三 阶 张 量 有 三 
个 轴 。 可 以 用 与 三 个 轴 对 应 的 三 个 整数 定位 到 三 阶 张 量 中 的 一 个 元 素 。 张 量 的 轴 叉 叫 作 维度 。 

自然 语言 处 理 (natural language processing) 

计算 机 科学 中 人 研究 如 何 用 计算 机 处 理 和 理解 卓然 语言 (尤其 是 文本 和 语 首 ) 的 子 领域 。 深 度 
学 习 的 很 多 应 用 都 在 自然 语言 处 理 领域 。 
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在 线 出 版 , 电子 书 ,《 码 农 》 杂 志 , 图 灵 访 谈 


“这 本 书 融 合 了 深度 学 习 理 论 和 TensorFlow.js 案 
例 ， 可 以 看 作 JavaScript 深度 学 习 领 域 不 可 错过 的 
学 习 资 料 。 身 处 机 器 学 习 和 JavaScript 的 前 沿 ， 我 
们 希望 这 本 书 所 介绍 的 概念 能 为 你 所 用 ， 并 祝 你 有 个 
硕果 累累 的 旅程 。” 


一 一 Nikhil Thorat 和 Daniel Smilkov 


TensorFlow.js 技术 负责 人 


“从 大 数据 上 看 ， 深 度 学 习 课程 在 腾讯 课堂 上 越 来 越 受 
欢迎 ， 而 且 大 部 分 学 习 者 并 非 算法 工程 师 ， 其 中 Web 
前 端 开 发 者 就 占 了 很 重要 的 一 部 分 。TensorFlow.js 
是 Web 前 端 开 发 者 尝试 深度 学 习 的 重要 途径 ， 这 本 书 
便 是 非常 棒 的 学 习 资料 和 入 门 指南 。 它 由 浅 入 深 ， 并 


且 在 实践 方面 提供 了 大 量 详细 的 案例 ， 会 帮 你 打开 一 
扇 通 往 前 端 智能 化 世界 的 大 门 。 
EE 





腾讯 在 线 教育 部 研发 负责 页 人 


“能 快速 实现 产品 原型 ， 是 JavaScript 技术 栈 的 天 然 
优势 。TensorFlow.js 将 这 种 优势 与 深度 学 习 技 术 结 
合 在 一 起 ， 为 当下 人 工 智能 领域 的 学 习 者 提供 了 强大 
的 利器 。TensorFlow.js 的 出 现 使 机 器 学 习 模 型 运行 
在 浏览 器 里 成 为 可 能 。 这 本 书 涵盖 了 深度 学 习 入 门 所 
需 的 大 部 分 知识 ， 并 且 配 备 了 相当 好 的 练习 实例 ， 无 

疑 是 掌握 TensorFlow.js 的 佳作 。” 


张 云 龙 
前 端 技 术 专 家 、 巧 子 科技 创始 人 





民生 MANNING 
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“作为 TensorFlow.js 的 合作 伙伴 ， 我 们 与 TensorFlow.js 
团队 进行 了 长 期 深入 的 合作 。 这 本 书 涵盖 了 深度 学 习 领 域 
几乎 所 有 成 熟 的 人 工 智 能 算法 模型 。 它 不 仅 给 我 带 来 
了 众多 深度 学 习 应 用 的 灵感 和 启发 ， 还 加 深 了 我 对 深 
度 学 习 的 理解 。 我 推荐 前 端 工 程 师 将 这 本 书 作 为 入 门 
前 端 智能 化 、 应 用 好 深度 学 习 和 人 工 智 能 技术 的 参考 
读物 。” 





甄 子 〈( 甄 闪 鲁 ) 


阿里 巴巴 前 端 委 员 会 智能 化 方向 负责 人 


前端 智能 化 是 Web 前端 领 域 的 发 展 趋势 之 一 。 针 对 
如 何 融合 人 工 智 能 ， 利 用 TensorFlow.js 构建 强大 的 
JavaScript 深度 学 习 应 用 程序 ， 相 信 这 本 书 是 很 好 的 
学 习 资 料 。 它 不 仅 讲解 了 建 模 、 训 练 以 及 推理 等 一 整 
套 理论 知识 ， 还 结合 实际 剖析 了 大 量 的 应 用 案例 ， 值 
得 仔细 阅读 。” 





操 龙 敏 


腾讯 IMWeb 前 端 团队 负责 人 


“通过 TensorFlow.js， 前 端 工程 师 将 有 能 力 借助 海 
量 的 预 训练 模型 ， 迅 速 地 集成 Al 功能 到 用 户 的 浏览 
器 中 ， 实 现 炫 酷 的 人 工 智 能 应 用 落地 。 这 本 书 是 
《Python 深度 学 习 》 的 姊妹 篇 ， 大 量 机 器 学 习 模 块 

介绍 和 示例 代码 带 你 走 入 JavaScript 深度 学 习 的 新 世 
a 


一 一 李 卓 醒 
谷歌 机 器 学 习 开 发 者 专家 、PreAngel 投资 人 
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